22 mar. 2012

La Bibliominerìa


La Bibliominerìa puede describirse como una disciplina que combina técnicas de la Estadística, la Bibliometría y de la Minería de Datos para la elaboración de informes que permitan extraer nueva información o conocimiento sobre los patrones de uso de los sistemas bibliotecarios. Una de las diferencias entre la Bibliometría y la Bibliominería es que la primera estudia patrones de citación entre autores, mientras que la segunda extrae patrones de uso por parte de los usuarios de una colección. Implica una serie de pasos como determinación de áreas a trabajar, identificación de fuentes, almacenamiento de datos y extracción de patrones La minería de datos o Data Mining es un conjunto de técnicas que consisten en la extracción no trivial de información que existe de manera implícita en grandes volúmenes de datos. Esta información, hasta el momento, era desconocida y puede resultar útil para algún proceso. Implica una preparación y una exploración de los datos para descubrir patrones de información, nuevo conocimiento, etc. Es un conjunto de técnicas destinadas a la extracción de conocimiento procesable implícito en las bases de datos. Sus fundamentos se encuentran en la Inteligencia Artificial y en la Estadística,  en el que las Ciencias de la Información confluyen en el ámbito de la Gestión del Conocimiento en las organizaciones Dentro de lo que se denomina la cadena de valor de la Administración de Conocimiento en las organizaciones, puede ubicarse como una actividad destinada a la adquisición de nuevo conocimiento, junto con técnicas como las redes neuronales, los algoritmos genéticos, etc., son en conjunto las herramientas que sirven para descubrir patrones y aplicar conocimiento a la toma de decisiones concretas y a diferentes dominios del conocimiento. La minería de datos se aplica normalmente a organizaciones que tienen en sus archivos grandes volúmenes de datos, para mejorar los procesos de negocios  que requieren estos volúmenes de información, generalmente almacenada en forma estructurada en bases de datos. También es una técnica fundamental en el ámbito de la investigación científica como herramienta de análisis y descubrimiento de conocimiento a partir del análisis de datos experimentales. Se utiliza frecuentemente en el ámbito de los sistemas de información geográfica y en el campo de la Bioinformática, en el análisis de las estructuras de grandes moléculas biológicas, como las proteínas o el ADN. Un proceso normal de minería de datos, implica una selección del conjunto de datos, un análisis de los mismos, una selección previa de las técnicas a aplicar, el proceso de extracción de conocimiento en si mismo y la interpretación de los resultados obtenidos. La minería de datos aplicada a las bibliotecas, se denomina Bibliominería, término que deriva del inglés, bibliomining, como una derivación de los términos bibliometría (bibliometrics) y minería de datos (data mining). Se define como la combinación de minería de datos, Bibliometría, Estadística y herramientas de elaboración de informes y extracción de patrones de comportamiento, basados en sistemas bibliotecarios. Es un término reciente, pero se viene utilizando desde la década de 1990. Se asocian ambas disciplinas, porque ambas se ocupan del análisis estadístico de datos con el propósito de descubrir patrones y tendencias en los datos, pero en el caso de la Bibliometría, la parte de la Cienciometría que aplica modelos estadísticos al estudio de la información científica, su objeto de estudio es la comunicación entre académicos en forma cuantitativa, a través de indicadores bibliomèticos. Aquí se trata de un uso pretérito de la información, productividad de los autores en distintos campos disciplinarios a través de estudios de citas, etc., mientras que en el caso de la Bibliominería se trata de datos con un uso potencial, previamente a la acción a desarrollar para determinar los patrones de uso de la colección por parte de los usuarios, la extracción de patrones de comportamientos de los usuarios en el uso de los servicios bibliotecarios, con utilidad para la toma de decisiones para la selección de recursos, la organización de la colección y la planificación de los servicios por parte de los directores de unidades de información.
En el primer caso, en enfoque esta puesto en los autores y en las redes de citas que se elaboran en un campo dado, mientras que en el segundo, es el uso de la colección por parte de los usuarios. El proceso de la Bibliominería, según los diversos especialistas del área se compone de seis pasos o fases:
- Determinación de los campos temáticos de interés
- Identificación de fuentes de información internas y externas
- Recolección, depuración y proceso de ocultamiento de la identidad de
Usuarios en el almacén de datos del sistema o data warehouse
- Selección de las herramientas de análisis
- Descubrimiento de patrones, tendencias y elaboración de informes
- Análisis e implementación de los resultados
Las fuentes de información externas a la biblioteca, generalmente consisten en datos de tipo demográfico y sirven para contextualizar la información obtenida. Las fuentes internas de información generalmente provienen de los Catálogos en línea y de los datos de circulación de materiales (en el caso de los sistemas integrales de gestión bibliotecaria), son los datos que provienen de la actividad diaria. Ambas fuentes muestran información sobre los materiales más usados, las renovaciones de los préstamos, etc. En el caso de Bibliotecas digitales se pueden desempeñar mayor variedad de funciones, se pueden crear bitácoras que muestran la actividad de los usuarios de las mismas, mediante la identificación de la IP y con el uso de cookies y con la identificación del usuario, en el caso de las bibliotecas con acceso restringido. El almacén de datos recopilados almacena datos actuales e históricos de potencial interés para los responsables de la toma de decisiones en una organización, toma los datos generalmente de las transacciones operativas del sistema, en el caso de las bibliotecas, en las operaciones de préstamos, reservas, devoluciones, renovaciones, consultas al catálogo, etc. La información del sistema debe ser filtrada y depurada previamente y estandarizada para facilitar su consulta. Este almacén debe permitir la elaboración de distintos informes en base a criterios específicos. Esta es la etapa que toma más tiempo de todos los pasos mencionados. Es muy importante en el diseño del almacén de datos el objetivo de la protección de la privacidad de los usuarios, es decir no debe guardarse la información de forma que se identifique a los usuarios y se viole su privacidad. Según Nicholson (2006), se puede considerar que existen en el mismo almacén tres tipos de datos principalmente: datos sobre la obra de la colección, datos sobre el usuario y datos sobre el servicio. El almacén debe contener y conectar los tres tipos de datos.
- En el primer caso, tenemos los datos bibliográficos propiamente dichos sobre la obra: el autor, el título de la obra, descriptores temáticos, formato, ubicación física (URL en el caso de bibliotecas digitales), etc. Esta información puede estar codificada en distintos formatos de entrada o intercambio de datos, como el MARC, Dublin Core (en el caso de los metadatos), etc., o en el sistema de gestión bibliotecaria. Esta área puede conectar la información bibliométrica, como citas o links, con otras obras. Esto requeriría, en el caso de las bibliotecas digitales, la extracción desde la fuente original o el enlace a la base de datos referencial.
- En el segundo caso, se encuentran los datos sobre el usuario en el que se almacenará lo que se denomina el sustituto demográfico (se verá luego): se pueden almacenar datos adicionales como IP de la computadora de acceso, que podría dar una idea sobre la localización, en el caso de las bibliotecas digitales, en bibliotecas académicas, en el caso de las bibliotecas públicas, datos del perfil del usuario, áreas de interés, etc. Todo esto podrá llegar a brindar una aproximación demográfica al usuario, pero nunca una coincidencia exacta.
- En el tercer caso, el servicio bibliotecario, en dónde se encuentra la razón primaria de ser de la biblioteca, sería la parte más difícil de conceptualizar debido a la variedad de servicios que la misma provee: búsquedas, circulación, referencia, préstamo interbibliotecario y otros servicios. Deben añadirse al almacén un conjunto de campos apropiados para cada tipo de servicio. El almacén de datos debe ser capaz de manejar ambos tipos de datos: tanto los que permiten la evaluación de un servicio específico como los que brindar la posibilidad de comprender el uso que se hace de los distintos servicios de la biblioteca por parte de los usuarios. A los datos recopilados de diversas fuentes, se le aplica el OLAP (On Line Analytic Processing) o procesamiento analítico de los datos en línea, que es el procesamiento de los datos en múltiples dimensiones, lo que permite visualizar los datos desde diversos puntos de vista, a través de la elaboración de informes. Se pueden efectuar consultas específicas a la base de datos y una realizar un análisis no dirigido de diversos parámetros. Se utilizan los datos provenientes del sistema de gestión integral, si la biblioteca posee un software de gestión integral. Con los datos recopilados en el almacén de datos, se pueden efectuar distintas operaciones: En primer lugar se lleva a cabo un proceso de limpieza y de filtrado de los datos, para descartar los datos irrelevantes y asegurar la consistencia de los datos, a continuación, se realizan diferentes tipos de operaciones que dan como resultado diferentes tipos de información: asociaciones, secuencias, clasificaciones, agrupaciones y pronósticos.
- Las asociaciones, son ocurrencias relacionadas a un único evento, muestran los elementos relacionados de diferentes formas (causalidad, similitud, derivación, etc.)
- En las secuencias, los eventos se enlazan con el paso del tiempo.
- La clasificación, reconoce patrones que describen al grupo, al cual pertenece un elemento dado por medio del análisis de elementos existentes que se han agrupado en el mismo y por medio de un conjunto de reglas de inferencia que definen la pertenencia o no de un determinado elemento al grupo en cuestión.
- El agrupamiento o clustering, funciona de manera similar a la clasificación, pero cuando aún no se han definido los grupos de pertenencia, se van formando grupos de datos con características similares.
- Existe también otra herramienta denominada generador de pronósticos, que puede llegar a predecir tendencias futuras, en base a datos históricos y actuales.
Tomado de: Puente, Marcelo de la
Bibliominería: bibliometría y minería de datos. Buenos Aires:
Consultora de Ciencias de la Información, No. 014, 2010.




Publicar un comentario en la entrada