Programación Lógica y Recuperación de Información

Sobre este sitio

Espacio dedicado a la programación lógica y la recuperación de información, con una atención especial al lenguaje Prolog y otros lenguajes afines, pertenecientes al paradigma lógico y declarativo. También se tratará de hablar de estos temas desde la perspectiva de la Biblioteconomía y la Documentación.

En esta página

¿Ha llegado el fin de los tesauros documentales? (19.2.06)
[0] comentarios.

19.2.06

¿Ha llegado el fin de los tesauros documentales?

Aunque no suele ser mi costumbre publicar integramente textos completos en este sitio (para esos menesteres mantengo abierto Visto y Leído), me permito hacerlo en esta ocasión dado el indudable interés que tiene el que reproduzco a continuación, en función de las ideas que plantea, las experiencias prácticas puestas de manifiesto y compartidas por el autor, y el debate que todo ello pretende suscitar. Se trata de un mensaje enviado por José Ramón Pérez Agüera (Departamento de Sistemas Informáticos y Programación, Facultad de Informática, Universidad Complutense de Madrid) a la lista de distribución IWETEL, el pasado 13/02/2006 (para acceder al texto original, en el apartado de archivos, hace falta estar suscrito a dicho foro de discusión para profesionales del ámbito de las bibliotecas y los centros de documentación).

[Comienza el texto de Pérez Agüera]

"Aunque no me toca publicar nota en Thinkepi, llevo unos meses (de hecho algún año que otro) dándole vueltas a este asunto y me gustaría contar con la opinión de la comunidad de documentalistas, más allá de mis propias observaciones, con lo cual este correo no pretende ser una nota sino dar pie a un debate en el que los documentalistas no están teniendo voz, al desarrollarse dentro del campo de la informática.

Trabajo en generación automática de tesauros, lo cual me ha llevado a realizar experimentos de indización automática y expansión de consultas a partir de tesauros realizados a mano. Concretamente he utilizado tres tesauros: ISOC-Economía, EUROVOC y SPINES, todos ellos conocidos de sobra. La colección sobre la que he realizado las pruebas ha sido el sub-conjunto de noticias de economía y política generadas por la Agencia EFE en 1994 (efe94 es una colección típica en experimentos de recuperación de información que consta de un total de 215.738 documentos. Yo he utilizado 23.390 en mis experimentos para centrarme en el área de política y economía, las cuales son cubiertas en buena medida por los tesauros anteriormente mencionados).

A parte también he contado con un conjunto 22 de consultas con sus respectivos juicios de relevancia para el dominio mencionado de cara a la realización de los experimentos. Estas consultas las he obtenido del congreso CLEF [Cross-Language Evaluation Forum] que se celebra todo los años y que se centra en temas de recuperación de información mono y multilingüe.

Como motor de búsqueda he usado Lucene, adaptado al español con stemming sobre los términos de indización, el cual está basado en el modelo tradicional de espacio vectorial de Salton (un clásico, vamos).

El objetivo de mis primeros experimentos ha sido el de comprobar de que forma afectaba a la recuperación de información automatizada el uso de tesauros documentales como los que se usan todos los días en centros de documentación de todo el mundo. Y cual no ha sido mi sorpresa al comprobar que tanto juntos como por separado, usando todos o parte de los tipos de relaciones que existen en los tesauros, realizando expansión global directa o ponderada (la forma en que he ponderado los tesauros es otra historia), en cada uno de los casos los tesauros mencionados, no han mejorado prácticamente nada la recuperación en la colección, ni en precisión, ni en recall (ni en otro cerro de medidas que he ido aplicando basadas en el modelo propuesto por TREC [Text REtrieval Conference], otro congreso de RI que tiene un programita bastante completillo llamado trec_eval para evaluar la recuperación), es más en algunos de los experimentos, dependiendo de la longitud de la consulta el uso de tesauros documentales hechos a mano empeoraba los resultados.

El siguiente paso en mi investigación ha sido trabajar con tesauros generados automáticamente a partir de tres metodologías básicas:

Procesamiento lingüístico de la colección (POS-Tagging, análisis sintáctico, análisis de árboles de dependencia entre términos).
Análisis de co-ocurrencias para la generación de las relaciones entre términos (Latent Semantic analysis, Qui y Frei (y su versión española implementada por Zazo, Berrocal y Cia de Salamanca), Jing y Croft, etc.).
Utilización de otros recursos lingüísticos (léase eurowordnet en su versión española, y diccio).

Los tesauros generados automáticamente a partir de estas metodologías sí han proporcionado mejoras significativas en la recuperación. No me quiero poner aquí más pesado de la cuenta sobre los detalles técnicos y las cifras pero para el que las quiera se las puedo pasar.

El caso es que comenté el hecho con Antonio García Jiménez, que de esto de tesauros documentales sabe un rato, y me comentó ciertas ideas muy valiosas que explicaban en parte los resultados, y que se podrían resumir (Antonio, si andas por ahí, corrígeme si me equivoco) en que los tesauros no se adaptaban perfectamente a la colección sobre la que yo los aplicaba y que por tanto se necesitaría un tesauro hecho a mano para la colección con la que yo trabajo para obtener una mejora basada en el uso de tesauros documentales.

Tras este comentario me quede rumiando y modifique la colección para adaptarla terminológicamente a los tesauros con los que yo contaba, para hacer confluir ambos conjuntos de datos en lo posible y así comprobar si mejoraba algo la capacidad de recuperación de los tesauros, pero por desgracia los datos han seguido siendo bastante descorazonadores.

Después de todas estas pruebas me surgió la siguiente pregunta ¿realmente tienen lugar los tesauros hechos a mano, y basados en la metodología y normativas tradicionales en el panorama de recuperación automatizada imperante hoy, ya sea dentro o fuera de Internet?

Mi respuesta por el momento, y a falta de vuestros comentarios, es que no tienen lugar y que es necesario plantearse con urgencia varios cambios en la metodología de elaboración de tesauros que existe actualmente y de la que las normas ISO, el libro de Gilchrist y Aitchison y el libro de Blanca Gil, suponen las principales referencias.

Los principales problemas del uso de tesauros documentales en Recuperación de Información Automatizada son:

Dispersión de datos: Es decir en la colección aparecen constantemente palabras que el tesauro no es capaz de normalizar (este problema no se soluciona con una actualización periódica hecha a mano en función del crecimiento de la colección).
Ambigüedad Semántica excesiva aún en tesauros de dominio específico como los mencionados.
Inconsistencias en la estructura de los tesauros.

Todos estos problemas son normales teniendo en cuenta que son tesauros hechos y gestionados a mano sin ningún mecanismo más o menos automático de control de consistencia (de hecho la mera importación de los tesauros a SQL a permitido la detección de estas inconsistencias estructurales) más allá de programas tipo multites y demás.

A esto se suma que tal y como se hacen los tesauros hoy en día, y en contra de lo que muchos opinan, tampoco sirve para la transición a las ontologías, debido a cuestiones básicas de diseño (fundamentalmente el paradigma orientado a objetos) con las que los tesauros documentales no cumplen ni de lejos y que provoca serios problemas de consistencia cuando intentamos convertir un tesauro documental en una ontología.

En vista a estos hechos y a que yo no doy más de mi por el momento en este asunto, me gustaría conocer vuestra opinión en este tema (pues a muchos les va el pan en ello, pienso yo). Por concretar, las preguntas iniciales, sin excluir otras posible que podéis ir haciendo serían:

¿Cual es el papel de los tesauros documentales en el contexto de la recuperación de información automatizada en centros de documentación?
¿Cual es el papel de los tesauros documentales en la recuperación de información en Internet?
¿Es necesario modificar el paradigma de elaboración de tesauros actualmente imperante? ¿en que sentido?

Yo, aunque no soy un experto tesaurista tengo mis opiniones que iré poniendo aquí si el debate tiene éxito, pero las que me interesan son las vuestras.

Espero haber sido claro, si tenéis cualquier duda sobre lo que he escrito o algo no se entiendo no dudéis en preguntar, espero que con suerte y entre todos le podamos dar un tiento a este problema tan puramente documental."

[Fin del texto de Pérez Agüera]

Pues ya saben, cualquier comentario, rectificación, aportación etc., en relación con las cuestiones planteadas en el texto anterior, pueden enviarlo a la referida lista IWETEL, y así enriquecer el debate que sin duda merece el conjunto de asuntos planteados por Pérez Agüera en relación con la recuperación de información, la indización automatizada, y el papel que los tesauros como instrumento de descripción normalizada juegan en todo ello...

De Pérez Agüera, y sobre los temas que aborda en su comunicación a la lista IWETEL, ver también: "Automatización de Tesauros y su utilización en la Web Semántica" (SWAD-Europe, taller Introducción al uso de la Web Semántica, 13 de junio 2004). Véanse también en general los SWAD-Europe Reports y SWAD-Europe Presentations. SWAD significa Semantic Web Activity: Advanced Development. También me parece pertinente reseñar, de la revista Anales de Documentación (nº 7, 2004, págs. 79-95), el artículo de Antonio García Jiménez "Instrumentos de Representación del Conocimiento: Tesauros versus Ontologías" (en PDF).

En otro orden de cosas, aprovecho la ocasión para relacionar a continuación una serie de enlaces, referencias y textos que han ido mereciendo mi atención en los últimos meses (los entrecomillados son citas textuales tomadas de los sitios referenciados):

Artículos, introducciones, anotaciones de "blogs":

Why Use Prolog? (Jocelyn Paine). Documento en el que se exponen diez (buenas) razones para (en opinión del autor) utilizar el lenguaje de programación lógica Prolog.
"I'm sorry Dave, I'm afraid I can't do that": Linguistics, Statistics, and Natural Language Processing circa 2001 (en PDF; Lillian Lee, Cornell University).
Programación utilizando Visual Prolog 6.0 (R. Fuentes Covarrubias, Universidad de Colima, Facultad de Ingeniería Mecánica y Eléctrica, México).
The legacy of the Reverend Bayes (en Devlin's Angle, febrero 2000).
Dos muy buenas introducciones básicas al lenguaje Prolog: First Steps in Prolog: an easy introduction to this AI language / Free Prologs: a guide to freely available Prolog systems (H. Collingbourne; en Bitwise Magazine).
Linear Logic - Naturally! (en That Logic Blog): "Linear logic has enjoyed enormous popularity over the last couple of decades or so. For those without some training in structural proof theory, understanding the system can be quite intimidating, especially because of the funny notation and weird jargon. In this post, I am going to show you that, in fact, you could have invented linear logic! [...]".
Lógica, Matemática, Deducción Automática (Manuel Ojeda Aciego, Dept. Matemática Aplicada, Universidad de Málaga; en PDF): "Presentamos una breve perspectiva histórica del desarrollo en paralelo y, a veces, entrelazado, de la Lógica y las Matemáticas, con el objetivo final de presentar la Lógica Computacional y, en particular, la Deducción Automática, como un área de investigación matemática de extraordinario potencial práctico, no en balde distintos autores de conocido prestigio afirman que la Lógica es a la Computación como el Cálculo Infinitesimal es a la Física.".

Páginas y sitios web:

Neural Java: Neural Networks Tutorial with Java Applets. "Neural Java is a series of exercises and demos. Each exercise consists of a short introduction, a small demonstration program written in Java (Java Applet), and a series of questions which are intended as an invitation to play with the programs and explore the possibilities of different algorithms. [...]".
My Artificial Intelligence project.
Wikibook on Prolog ("[...] This book can serve as a textbook or tutorial for anyone who wants to learn the prolog programming language. No prior programming experience is required. Some basic knowledge of logic can come in handy. [...]").
Yandes. Conjunto de módulos concebidos para ayudar a los estudiantes de Lógica, implementados en lenguaje Prolog. Actualmente son los siguientes: TT: construcción de tablas de verdad para Lógica proposicional. Incluye además dos predicados para determinar una fórmula como válida, satisfactible, o insatisfactible, y un razonamiento como correcto o incorrecto; ND: construcción de demostraciones de deducción natural; CNF: convierte fórmulas en forma conjuntiva normal, o en forma clausal.
TRIPLE ("[...] an RDF query, inference, and transformation language for the Semantic Web. [...]").
Glosario de Recuperación de Información Web (Adriana Colino Tomé; vía Recuperación de Información en la Web).

Conferencias, congresos:

Modeling Decisions for Artificial Intelligence (Tarragona, 3-5 abril 2006): "Decision making processes, and information fusion tools at large, are currently embedded in most Artificial Intelligence applications. As a consequence, systems based on decision making and fusion techniques are becoming pervasive. They are currently in use in all kind of environments, from entertainment gadgets to safety-critical or risk management software.".
22nd International Conference on Logic Programming (ICLP 2006, 17-20 agosto 2006).

Pro·Log·[IR]

Programación Lógica y Recuperación de Información

«Algorithm = Logic + Control» Robert Kowalski (1979)

¡Importante! esta página hace uso de estilos recogidos en la especificación CSS2, no soportados por el navegador que está utilizando. Por favor, lea esta recomendación al respecto.

Archivo

Enlaces

Bitácoras en castellano

Bitácoras en inglés

Directorios, metablogs

Programación lógica, Inteligencia Artificial, Recuperación de Información

Usabilidad, Arquitectura de la Información

Listas, foros, wikis

Matemáticas, ciencias

Miscelánea

Búsquedas

Varios

Sobre este sitio

En esta página

19.2.06

¿Ha llegado el fin de los tesauros documentales?

Artículos, introducciones, anotaciones de "blogs":

Páginas y sitios web:

Conferencias, congresos:

[0] comentarios | # | lista |

Pro·Log·[IR],

Publicación: Blogger | Estadísticas: eXTReMe Tracking

Pro·Log·[IR]

Programación Lógica y Recuperación de Información

«Algorithm = Logic + Control» Robert Kowalski (1979)

¡Importante! esta página hace uso de estilos recogidos en la especificación CSS2, no soportados por el navegador que está utilizando. Por favor, lea esta recomendación al respecto.

Archivo

Enlaces

Bitácoras en castellano

Bitácoras en inglés

Directorios, metablogs

Programación lógica, Inteligencia Artificial, Recuperación de Información

Usabilidad, Arquitectura de la Información

Listas, foros, wikis

Matemáticas, ciencias

Miscelánea

Búsquedas

Varios

Sobre este sitio

En esta página

19.2.06

¿Ha llegado el fin de los tesauros documentales?

Artículos, introducciones, anotaciones de "blogs":

Páginas y sitios web:

Conferencias, congresos:

[0] comentarios | # | lista |

Pro·Log·[IR], document.write(year);

Publicación: Blogger | Estadísticas: eXTReMe Tracking

Pro·Log·[IR],