21 jun. 2013

Uso e impacto de documentos en abierto



La Iniciativa de Archivos Abiertos (OAI) promueve el libre acceso a la literatura científica, sin ningún tipo de restricciones financieras o técnicas, a través de la creación de revistas en acceso abierto y el archivo de los trabajos publicados en repositorios institucionales o temáticos (BOAI, 2001). Presupone que eliminar las barreras financieras que limitan el acceso a los documentos científicos permitiría que estos estuvieran a disposición de un número mayor de lectores potenciales y por lo tanto sería también mayor el impacto que causarían en la comunidad científica. De esta forma el objetivo del acceso abierto puede resumirse en: aumentar el acceso para así aumentar el impacto de los trabajos. Por impacto y en sentido amplio se puede entender cualquier cambio, intencionado o no, de carácter positivo o negativo, que un trabajo causa en la comunidad científica a la que pertenece y que se materializa en comentarios del resto de colegas, nuevas publicaciones que analizan o se basan en la primera, etc. Dado que las publicaciones son el objeto tangible utilizado para cuantificar el impacto, la obtención de indicadores fiables para su medición se ha basado en el recuento de citas entre las mismas, asumiendo que un trabajo será mejor cuantas más citas reciba. La idea, inferida del objetivo del acceso abierto, de que los documentos en abierto se citan más que los que no lo están, se ha convertido en un eslogan para motivar a los autores a archivar sus trabajos en repositorios institucionales. Si bien se han publicado numerosos estudios que así lo prueban (entre otros, Eysenbach, 2006; Lawrence, 2001; Lin 2007), los repositorios tienen una baja tasa de contribución por parte de los autores. En su mayor parte están vacíos de contenidos científicos actuales (Swan, 2008) y crecen gracias a las aportaciones hechas desde las bibliotecas a base de tesis doctorales, materiales históricos digitalizados, didácticos, etc. Por lo tanto, para atraer a los investigadores hacia los repositorios institucionales no es suficiente con afirmar la importancia del acceso abierto, ni siquiera demostrar a nivel de disciplina que los documentos abiertos se citan más que el resto. Es necesario demostrar al nivel de investigador individual la utilidad de poner los trabajos en abierto, concretada en la cuantificación del aumento del impacto de los mismos. Es necesario proporcionar servicios de valor añadido que demuestren cuánto, cuándo y cómo se descargan y se citan los documentos. Para ello es necesario llevar a cabo una medición sistemática del tráfico de documentos en los repositorios. Ahora bien, una medición efectiva no puede plantearse de forma aislada para cada repositorio institucional o temático sino que será necesario plantearla desde un nivel superior de agregación de datos, bien sea por disciplinas o por áreas geográficas, que permitan contextualizar y comparar resultados de investigadores entre instituciones. Esto implica el desarrollo de una estructura a nivel superior al repositorio que integre, analice y extraiga indicadores a partir de los datos obtenidos de distintos repositorios institucionales.

En este trabajo se presenta una propuesta de arquitectura destinada a permitir la recopilación, distribución y agregación de los datos necesarios para llevar a cabo una medición del uso e impacto de los trabajos almacenados en repositorios institucionales. En la siguiente sección se analizan los diferentes niveles de medición. A continuación, las secciones tres y cuatro analizan, respectivamente, la problemática de la utilización de logs para la medición del uso y la extracción de referencias para la medición del impacto. La sección cinco propone una arquitectura para la integración de datos de uso y citas.

Teniendo en cuenta el objetivo del acceso abierto de aumentar la accesibilidad (para así aumentar el impacto) podríamos establecer al menos dos niveles de medición destinados a evaluar la utilidad de archivar los documentos en abierto:

  • Uso: relacionado con la accesibilidad y destinado a cuantificar la utilización de los documentos. Por uso entendemos el tráfico de documentos desde los repositorios hasta los lectores. A su vez, el uso podemos medirlo a dos niveles: el número de veces que se ha accedido a la descripción bibliográfica del documento en el servidor web del repositorio; y el número de individuos que han decidido descargar el texto completo del documento, presumiblemente porque lo han considerado interesante. Para cuantificar el uso se pueden utilizar los datos recogidos en el registro de acceso o log del servidor web del repositorio.
  • Impacto: por impacto entendemos las referencias que se han establecido a posteriori entre documentos a través de las citas. En este nivel cuantificaremos aquellos lectores que, tras analizar el trabajo, lo han considerado lo suficientemente importante como para citarlo en sus publicaciones posteriores. El impacto se cuantificará a través de un análisis de citas.

Cada vez son más los repositorios que están incluyendo un servicio de análisis de uso de sus documentos. Tanto E-Prints como DSpace ofrecen módulos para el análisis local de logs. Ejemplos concretos de análisis con indicadores del número de descargas y visitas a la información bibliográfica en E-Prints y DSpace se pueden ver en E-LIS <http://eprints.rclis.org/es/index.php?action=show_detail_eprint&id=7136> o en el repositorio de la University of Toronto <https://tspace.library.utoronto.ca/statistics>. Un paso más lo constituye el proyecto IRS (Interoperable Repository Statistics) <http://irs.eprints.org> financiado por Joint Information Systems Committee (JISC) en el Reino Unido con el objetivo de investigar la recolección e intercambio de datos de uso y que se ha materializado en el desarrollo de un paquete software IRStats que automatiza la elaboración de estadísticas en función de múltiples indicadores. Todos estos proyectos se basan en repositorios individuales y nos dan una visión parcial de uso de los trabajos al incluir solamente las veces que se han accedido o descargado desde el propio repositorio. Para aprovechar al máximo el potencial de los datos de uso es necesario su agrupación y explotación a nivel de agregadores específicos.

La cuantificación de uso e impacto a través de datos procedentes de distintas instituciones plantea una serie de problemas. En primer lugar habrá que determinar cuál o cuáles son los objetos sobre los que llevarla a cabo, así como la identificación de los mismos. El directorio OpenDOAR <http://www.opendoar.org> muestra que los repositorios institucionales están repletos de contenidos que no son propiamente documentos de investigación. La cuantificación de su uso, aunque interesante para los gestores del repositorio, no presenta ningún valor añadido desde el punto de vista del acceso abierto. Por lo tanto, el objeto a analizar deberían ser exclusivamente los eprints, entendiendo por tales, los documentos de investigación en su versión tanto de pre- como de post- publicación, antes o después de haber pasado por un proceso de peer review. Quedan fuera de este ámbito objetos populares pero sin valor para la investigación como objetos de aprendizaje, material audiovisual, fotografías, etc. Frente a la bibliometría tradicional que se centra en la revista como objeto de estudio, los datos recolectados de los repositorios nos permitirán descender en la granularidad de nuestro objeto de estudio y centrarnos en trabajos de investigación propiamente dichos.

En segundo lugar, habrá que tener en cuenta además que un mismo trabajo puede aparecer en varias versiones y una misma versión podrá estar almacenada en varios repositorios (si cada autor archiva una copia en su respetiva institución). Además, cada depósito podrá tener varias representaciones de una versión en diferentes formatos: PDF, Word, etc. Para proporcionar resultados fiables sobre un trabajo será necesario agregar los datos de uso y citas de todas las versiones, localizaciones y formatos conocidos del mismo. Ello implica la necesidad de un sistema normalizado de descripción e identificación de los trabajos. Si bien se están desarrollando estándares como OAI-ORE (OAI, 2007) que permitirá la integración de objetos complejos, por el momento la correcta identificación de un trabajo pasa por la utilización de unos identificadores adecuados y una descripción utilizando metadatos completos. En los repositorios se utiliza una gama heterogénea de sistemas de identificación, entre ellos, handles, DOI, PURL, etc

Apartes completos de esta publicación fueron tomados del artículo, Medición del uso e  impacto de documentos distribuidos a través de repositorios institucionales; Barrueco, Manuel José, 2008. (http://www2.ub.edu/bid/consulta_articulos.php?fichero=20barru2.htm)
Publicar un comentario en la entrada