La Bibliominerìa
puede describirse como una disciplina que combina técnicas de la Estadística,
la Bibliometría y de la Minería de Datos para la elaboración de informes que
permitan extraer nueva información o conocimiento sobre los patrones de uso de los
sistemas bibliotecarios. Una de las diferencias entre la Bibliometría y la
Bibliominería es que la primera estudia patrones de citación entre autores,
mientras que la segunda extrae patrones de uso por parte de los usuarios de una
colección. Implica una serie de pasos como determinación de áreas a trabajar,
identificación de fuentes, almacenamiento de datos y extracción de patrones La
minería de datos o Data Mining es un conjunto de técnicas que consisten en la
extracción no trivial de información que existe de manera implícita en grandes volúmenes
de datos. Esta información, hasta el momento, era desconocida y puede resultar
útil para algún proceso. Implica una preparación y una exploración de los datos
para descubrir patrones de información, nuevo conocimiento, etc. Es un conjunto
de técnicas destinadas a la extracción de conocimiento procesable implícito en
las bases de datos. Sus fundamentos se encuentran en la Inteligencia Artificial
y en la Estadística, en el que las
Ciencias de la Información confluyen en el ámbito de la Gestión del
Conocimiento en las organizaciones Dentro de lo que se denomina la cadena de
valor de la Administración de Conocimiento en las organizaciones, puede
ubicarse como una actividad destinada a la adquisición de nuevo conocimiento,
junto con técnicas como las redes neuronales, los algoritmos genéticos, etc.,
son en conjunto las herramientas que sirven para descubrir patrones y aplicar
conocimiento a la toma de decisiones concretas y a diferentes dominios del
conocimiento. La minería de datos se aplica normalmente a organizaciones que
tienen en sus archivos grandes volúmenes de datos, para mejorar los procesos de
negocios que requieren estos volúmenes
de información, generalmente almacenada en forma estructurada en bases de datos.
También es una técnica fundamental en el ámbito de la investigación científica
como herramienta de análisis y descubrimiento de conocimiento a partir del
análisis de datos experimentales. Se utiliza frecuentemente en el ámbito de los
sistemas de información geográfica y en el campo de la Bioinformática, en el
análisis de las estructuras de grandes moléculas biológicas, como las proteínas
o el ADN. Un proceso normal de minería de datos, implica una selección del
conjunto de datos, un análisis de los mismos, una selección previa de las
técnicas a aplicar, el proceso de extracción de conocimiento en si mismo y la
interpretación de los resultados obtenidos. La minería de datos aplicada a las
bibliotecas, se denomina Bibliominería,
término que deriva del inglés, bibliomining, como una derivación de los términos
bibliometría (bibliometrics) y minería de datos (data mining). Se
define como la combinación de minería de datos, Bibliometría, Estadística y
herramientas de elaboración de informes y extracción de patrones de
comportamiento, basados en sistemas bibliotecarios. Es un término reciente,
pero se viene utilizando desde la década de 1990. Se asocian ambas disciplinas,
porque ambas se ocupan del análisis estadístico de datos con el propósito de
descubrir patrones y tendencias en los datos, pero en el caso de la
Bibliometría, la parte de la Cienciometría que aplica modelos estadísticos al
estudio de la información científica, su objeto de estudio es la comunicación
entre académicos en forma cuantitativa, a través de indicadores bibliomèticos.
Aquí se trata de un uso pretérito de la información, productividad de los
autores en distintos campos disciplinarios a través de estudios de citas, etc.,
mientras que en el caso de la Bibliominería se trata de datos con un uso
potencial, previamente a la acción a desarrollar para determinar los patrones
de uso de la colección por parte de los usuarios, la extracción de patrones de
comportamientos de los usuarios en el uso de los servicios bibliotecarios, con
utilidad para la toma de decisiones para la selección de recursos, la
organización de la colección y la planificación de los servicios por parte de
los directores de unidades de información.
En el primer caso,
en enfoque esta puesto en los autores y en las redes de citas que se elaboran
en un campo dado, mientras que en el segundo, es el uso de la colección por
parte de los usuarios. El proceso de la Bibliominería, según los diversos
especialistas del área se compone de seis pasos o fases:
- Determinación de
los campos temáticos de interés
- Identificación
de fuentes de información internas y externas
- Recolección,
depuración y proceso de ocultamiento de la identidad de
Usuarios en el
almacén de datos del sistema o data warehouse
- Selección de las
herramientas de análisis
- Descubrimiento
de patrones, tendencias y elaboración de informes
- Análisis e
implementación de los resultados
Las fuentes de
información externas a la biblioteca, generalmente consisten en datos de tipo
demográfico y sirven para contextualizar la información obtenida. Las fuentes
internas de información generalmente provienen de los Catálogos en línea y de
los datos de circulación de materiales (en el caso de los sistemas integrales
de gestión bibliotecaria), son los datos que provienen de la actividad diaria.
Ambas fuentes muestran información sobre los materiales más usados, las renovaciones
de los préstamos, etc. En el caso de Bibliotecas digitales se pueden desempeñar
mayor variedad de funciones, se pueden crear bitácoras que muestran la
actividad de los usuarios de las mismas, mediante la identificación de la IP y
con el uso de cookies y con la identificación del usuario, en el caso de las
bibliotecas con acceso restringido. El almacén de datos recopilados almacena
datos actuales e históricos de potencial interés para los responsables de la
toma de decisiones en una organización, toma los datos generalmente de las
transacciones operativas del sistema, en el caso de las bibliotecas, en las
operaciones de préstamos, reservas, devoluciones, renovaciones, consultas al
catálogo, etc. La información del sistema debe ser filtrada y depurada
previamente y estandarizada para facilitar su consulta. Este almacén debe
permitir la elaboración de distintos informes en base a criterios específicos.
Esta es la etapa que toma más tiempo de todos los pasos mencionados. Es muy
importante en el diseño del almacén de datos el objetivo de la protección de la
privacidad de los usuarios, es decir no debe guardarse la información de forma
que se identifique a los usuarios y se viole su privacidad. Según Nicholson
(2006), se puede considerar que existen en el mismo almacén tres tipos de datos
principalmente: datos sobre la obra de la colección, datos sobre el usuario
y datos sobre el servicio. El almacén debe contener y conectar los
tres tipos de datos.
- En el primer
caso, tenemos los datos bibliográficos propiamente dichos sobre la obra: el
autor, el título de la obra, descriptores temáticos, formato, ubicación física
(URL en el caso de bibliotecas digitales), etc. Esta información puede estar
codificada en distintos formatos de entrada o intercambio de datos, como el
MARC, Dublin Core (en el caso de los metadatos), etc., o en el sistema de gestión
bibliotecaria. Esta área puede conectar la información bibliométrica, como citas
o links, con otras obras. Esto requeriría, en el caso de las bibliotecas digitales,
la extracción desde la fuente original o el enlace a la base de datos referencial.
- En el segundo
caso, se encuentran los datos sobre el usuario en el que se almacenará lo que
se denomina el sustituto demográfico (se verá luego): se pueden
almacenar datos adicionales como IP de la computadora de acceso, que podría dar
una idea sobre la localización, en el caso de las bibliotecas digitales, en bibliotecas
académicas, en el caso de las bibliotecas públicas, datos del perfil del usuario,
áreas de interés, etc. Todo esto podrá llegar a brindar una aproximación demográfica
al usuario, pero nunca una coincidencia exacta.
- En el tercer
caso, el servicio bibliotecario, en dónde se encuentra la razón primaria de ser
de la biblioteca, sería la parte más difícil de conceptualizar debido a la variedad
de servicios que la misma provee: búsquedas, circulación, referencia, préstamo
interbibliotecario y otros servicios. Deben añadirse al almacén un conjunto de
campos apropiados para cada tipo de servicio. El almacén de datos debe ser
capaz de manejar ambos tipos de datos: tanto los que permiten la evaluación de
un servicio específico como los que brindar la posibilidad de comprender el uso
que se hace de los distintos servicios de la biblioteca por parte de los
usuarios. A los datos recopilados de diversas fuentes, se le aplica el OLAP (On Line Analytic Processing) o
procesamiento analítico de los datos en línea, que es el procesamiento de los
datos en múltiples dimensiones, lo que permite visualizar los datos desde
diversos puntos de vista, a través de la elaboración de informes. Se pueden
efectuar consultas específicas a la base de datos y una realizar un análisis no
dirigido de diversos parámetros. Se utilizan los datos provenientes del sistema
de gestión integral, si la biblioteca posee un software de gestión integral. Con
los datos recopilados en el almacén de datos, se pueden efectuar distintas operaciones:
En primer lugar se lleva a cabo un proceso de limpieza y de filtrado de los
datos, para descartar los datos irrelevantes y asegurar la consistencia de los
datos, a continuación, se realizan diferentes tipos de operaciones que dan como
resultado diferentes tipos de información: asociaciones, secuencias, clasificaciones,
agrupaciones y pronósticos.
- Las asociaciones,
son ocurrencias relacionadas a un único evento, muestran los elementos
relacionados de diferentes formas (causalidad, similitud, derivación, etc.)
- En las secuencias,
los eventos se enlazan con el paso del tiempo.
- La clasificación,
reconoce patrones que describen al grupo, al cual pertenece un elemento dado
por medio del análisis de elementos existentes que se han agrupado en el mismo
y por medio de un conjunto de reglas de inferencia que definen la pertenencia o
no de un determinado elemento al grupo en cuestión.
- El agrupamiento
o clustering, funciona de manera similar a la clasificación, pero cuando
aún no se han definido los grupos de pertenencia, se van formando grupos de
datos con características similares.
- Existe también
otra herramienta denominada generador de pronósticos, que puede llegar a
predecir tendencias futuras, en base a datos históricos y actuales.
Tomado de: Puente, Marcelo de la
Bibliominería: bibliometría y minería de datos. Buenos Aires:
Consultora de Ciencias de la Información, No. 014, 2010.
