Programación Lógica y Recuperación de Información

Sobre este sitio

Espacio dedicado a la programación lógica y la recuperación de información, con una atención especial al lenguaje Prolog y otros lenguajes afines, pertenecientes al paradigma lógico y declarativo. También se tratará de hablar de estos temas desde la perspectiva de la Biblioteconomía y la Documentación.

En esta página

Varios sobre Recuperación de Información (2.1.04)
[0] comentarios.

2.1.04

Varios sobre Recuperación de Información

Uno de los clásicos de la literatura científica sobre recuperación de información (RI), es sin duda la obra "Information Retrieval" de C. J. van Rijsbergen (Department of Computing Science, Universidad de Glasgow). El texto completo de la segunda edición (1979) está disponible en Internet y se puede consultar en dos formatos, HTML y PDF, siendo este último el más recomendable, ya que al tratarse de un facsímil del original impreso, mantiene la integridad y por tanto la legibilidad de las fórmulas y algoritmos descritos, muy difíciles de representar correctamente en HTML puro hasta que, plugins de todo tipo aparte, MathML (estándar del W3C) sea una realidad totalmente soportada por los navegadores más extendidos; en el caso que nos ocupa se recurre, en la versión en HTML, a simples imágenes para solventar esta limitación.

Hay que hacer notar a este respecto que Mozilla soporta razonablemente bien el estándar MathML, como nos demuestra el excelente "weblog" Bitácora de matemáticas, si bien es preciso instalar previamente una serie de fuentes especiales (como se explica en esta bitácora).

A pesar de los años transcurridos desde la publicación de la obra de van Rijsbergen, los fundamentos teóricos expuestos son plenamente vigentes, no en vano es una obra de referencia en este campo que, de forma condensada, pero al tiempo con el requerido nivel de complejidad teórica, ofrece una visión general de las principales técnicas y métodos involucrados en los procesos de RI. Los temas o campos de la RI que trata son los siguientes:

Automatic Text Analysis.
Automatic Classification.
File Structures.
Search Strategies.
Probabilistic Retrieval.
Evaluation.

Otras técnicas más o menos novedosas de representación y procesamiento, aplicadas con mayor o menor fortuna al campo de la RI (redes neuronales, conjuntos difusos, algoritmos genéticos... en el portal generation5.org existen una serie de artículos e introducciones de carácter genérico sobre estos métodos), no se contemplan en el libro ya que eran prácticamente desconocidas, o aún estaban en una fase inicial de desarrollo en la fecha de publicación original de la edición actualmente disponible electrónicamente. Tampoco creo que la intención del autor fuese abordar excesivas complejidades teóricas y conceptuales, sino por el contrario ofrecer un texto "asequible", a modo de "estado de la cuestión", pero no por ello carente de una más que suficiente profundidad teórica.

En un plano de menor nivel de complejidad teórica, pero precisamente por ello más asequible y adecuado para las personas no excesivamente versadas en estos asuntos, encontramos en hipertext.net una introducción relacionada con el tema que nos ocupa, "La evaluación en recuperación de la información". En este documento se describen los principales indicadores aceptados para valorar los resultados obtenidos en los procesos de recuperación de información. Existe en el texto alguna falta de correspondencia entre la fórmula descrita en la explicación y la representada gráficamente en la figura correspondiente, atención por tanto a este punto. A destacar la consistente bibliografía aportada.

Y ya que mencionamos el portal hipertext.net, concebido como punto de encuentro virtual para las personas interesadas en el área de la Documentación digital, destacaremos otros tres interesantes documentos, publicados en el Anuario nº 1 (mayo 2003):

Introducción a XML para Documentalistas
Introducción al lenguaje de marcado XML desde la perspectiva de su aplicación práctica a representaciones documentales, sin olvidar su presentación mediante XSLT.
Resource Description Framework (RDF)
Introducción al concepto y sintaxis de este lenguaje para la representación, procesamiento y recuperación de metadatos [1] [2].

Panorámica y tendencias en Topic Maps
Los Topics Maps o mapas conceptuales, son una forma de representación visual de la información, en este caso referida a formas de navegación hipertextual entre contenidos y recursos electrónicos, muy similares, tanto en concepto como en lo que a la forma de representación formal se refiere, a los denominados "Mind Maps" o mapas mentales [1] [2] [3].

Los mapas conceptuales que se describen en este último artículo se basan en la especificación XML Topic Maps (XTM; actualmente es un estándar ISO), consistente en una gramática basada en el meta-lenguaje XML. Cito textualmente:

"Un mapa conceptual de navegación, es la representación de un conjunto de relaciones conceptuales por medio de una estructura de proposiciones formada por conceptos y palabras enlace. Cada concepto tiene un listado de enlaces que permiten el acceso a todo tipo de documentos con contenidos relacionados directamente con el concepto representado."
Fuente

Podemos consultar sobre este particular, además del portal del consorcio independiente TopicMaps.Org (encargado de la elaboración y mantenimiento de la especificación antes reseñada), la excelente introducción "What Are Topic Maps?" publicada en XML.com, y, a modo de marco teórico general, los ensayos "Concept Maps as Hypermedia Components" y "Understanding Information Collections with Maps and Visualizations", por citar algunas posibles fuentes de referencia. En Deakialli también han comentado este tema días atrás, a propósito del buscador de pago Grokker.

A fecha de hoy el único navegador que soporta la representación formal de los mapas conceptuales es IE. Y esta puntualización da pie a comentar un grave fallo de accesibilidad del portal hipertext.net, sólo se puede acceder a sus contenidos mediante el navegador de MS, lo cual no es de recibo en el actual contexto de diseño y usabilidad web, en el que la tendencia es (o pretende ser) tratar de ofrecer contenidos y recursos abiertos a toda clase de usuarios y sistemas, sin (im)poner a priori limitaciones de ningún tipo.

Retomando el tema de la RI mencionaremos también las siguientes monografías:

Modern Information Retrieval (R. Baeza-Yates y B. Ribeiro-Neto, 1999; ubicación alternativa); únicamente se pueden consultar a texto completo (en formatos HTML, PDF y PS) los capítulos 1 (Introduction) y 10 (User Interfaces and Visualization).
Information Retrieval Interaction (Peter Ingwersen, 1992), disponible a texto completo en formato PDF, bien en un único documento, o por capítulos. Peter Ingwersen fue uno de los ponentes de las II Jornadas de Tratamiento y Recuperación de la Información (Jotri 2003) celebradas en septiembre del año pasado en el marco de la Universidad Carlos III de Madrid, mencionadas en una ocasión anterior.
String Indexing (T.C. Craven, 1986).

Otros textos y artículos sobre RI y disciplinas conexas:

Introducción a los Sistemas de Recuperación de Información (F.J. Martínez Méndez, Departamento de Información y Documentación. Universidad de Murcia; ver también el resto de temas de la asignatura Sistemas de Almacenamiento y Recuperación de Información).
Basics of Information Retrieval (J.J. Paijmans); de este mismo autor: "Probabilistic Approaches in Information Retrieval", "Structured Document Retrieval" y "The retrieval of information from historical perspective".
IR and AI: traditions of representation and anti-representation in information processing (Y. Wilks; también en formato PS); de este mismo autor: "Information Extraction: Beyond Document Retrieval" (en formato PS).
Machine Learning for Information Retrieval: Neural Networks, Symbolic Learning, and Genetic Algorithms (H. Chen; también en formato PDF; H. Chen es el fundador y responsable del Artificial Intelligence Lab de la Universidad de Arizona; gran parte de su producción de artículos y ensayos versa sobre la aplicación de técnicas de IA a la RI, y sobre bibliotecas digitales).
Glossary for Information Retrieval (S. Weiss; sin mantenimiento, la última actualización data de 1997).

Tim Craven, cuya obra "String Indexing" acabamos de referenciar, es profesor de la Facultad de Información y Estudios de Medios, Universidad Western Ontario (Canadá). En su página web encontramos recursos relacionados con su actividad docente y profesional, destacando un tutorial para la creación de tesauros, y, especialmente, una serie de programas de carácter "freeware" (para la plataforma MS Windows únicamente) orientados a prestar ayuda, fundamentalmente, en tareas relacionadas con los procesos de indexación, resumen y RI, a saber: extracción de palabras y frases (ExtPhr32), indexación de a) cadenas de texto (NEPHIS32) y b) documentos web (XRefHT32), seguimiento y ayuda automatizados en el proceso de elaboración de resúmenes (TexNet32) y, por último, creación y mantenimiento de tesauros (TheW32).

Personalmente he probado el programa que sirve como asistente y gestor en la tarea de elaborar y mantener tesauros (TheW32), y mi intención es hacer lo propio con el resto de ellos. Su funcionamiento es muy sencillo e intuitivo (ver las páginas Documentation e Introduction), siempre que se conozcan mínimamente los fundamentos teóricos relativos a los lenguajes de indización en general y los tesauros en particular, y existen varias posibilidades de visualización y exportación de parte o la totalidad de los glosarios terminológicos confeccionados, tanto en lo que se refiere al formato de archivo capaz de generar el programa (HTML, XML, RTF, texto plano...), como en lo relativo a la presentación en sí de los términos y sus relaciones.

Para obtener más información acerca de este tipo de programas, recomiendo visitar la página "Software for building and editing thesauri" en la que se recogen enlaces comentados y fuentes de referencia sobre el particular. Comienza con una breve explicación que versa sobre en qué consiste un tesauro, aunque también es posible acceder a una exposición más detallada.

Finalmente mencionar, dentro del ámbito de la RI, el proyecto SRIM ("Construcción de un sistema de recuperación de información multilingüe en la web"; finalizado en diciembre de 2003), desarrollado por investigadores procedentes de las universidades de Alicante, Jaén y Sevilla, y cuyo objetivo es la construcción de un sistema de recuperación de información multilingüe (la pregunta de consulta y los documentos recuperados no han de estar necesariamente en el mismo idioma), con capacidades añadidas de procesamiento del lenguaje natural (PLN ó NLP) tales como análisis léxico y sintáctico, entre otras. Actualmente el sistema está formado por las siguientes herramientas, operativas en línea:

Localizador geográfico (sistema de consultas a una base de datos geográfica en lenguaje natural);
Sistema de RI, trabaja sobre una base de datos de documentos de prensa, consultable mediante expresiones de búsqueda en lenguaje natural, o mediante palabras clave;
Aplicación para la desambigüación de textos;
Sistema de PLN orientado a la resolución del problema de la anáfora (repetición de una o más palabras al principio de enunciados sucesivos);
Herramienta de pos tagging para anotar texto con información sobre el lema (entrada objeto de atención) y las partes de la oración correspondientes (part-of-speech).

Sobre la técnica pos tagging de etiquetado de las categorías gramaticales de las palabras -o etiquetado léxico de textos-, ver, en el artículo "Técnicas básicas en el tratamiento informático de la lengua" (Quark nº 19, julio-diciembre 2000, especial Las tecnologías de la lengua), el apartado "Desambiguación morfosintáctica".

Como material de apoyo, y además de la correspondiente ayuda y manuales referidos a cada una de las herramientas, también encontramos una serie de artículos y ponencias (en formato PDF, ver el apartado "Publicaciones derivadas del proyecto"), cuyo objeto de estudio es la descripción de los diversos aspectos del PLN involucrados en el desarrollo del proyecto SRIM. En general se trata de textos sólo aptos para personas muy metidas en estas cuestiones, dado su carácter especializado y su considerable nivel de complejidad teórica.

Pro·Log·[IR]

Programación Lógica y Recuperación de Información

«Algorithm = Logic + Control» Robert Kowalski (1979)

¡Importante! esta página hace uso de estilos recogidos en la especificación CSS2, no soportados por el navegador que está utilizando. Por favor, lea esta recomendación al respecto.

Archivo

Enlaces

Bitácoras en castellano

Bitácoras en inglés

Directorios, metablogs

Programación lógica, Inteligencia Artificial, Recuperación de Información

Usabilidad, Arquitectura de la Información

Listas, foros, wikis

Matemáticas, ciencias

Miscelánea

Búsquedas

Varios

Sobre este sitio

En esta página

2.1.04

Varios sobre Recuperación de Información

[0] comentarios | # | lista |

Pro·Log·[IR],

Publicación: Blogger | Estadísticas: eXTReMe Tracking

Pro·Log·[IR]

Programación Lógica y Recuperación de Información

«Algorithm = Logic + Control» Robert Kowalski (1979)

¡Importante! esta página hace uso de estilos recogidos en la especificación CSS2, no soportados por el navegador que está utilizando. Por favor, lea esta recomendación al respecto.

Archivo

Enlaces

Bitácoras en castellano

Bitácoras en inglés

Directorios, metablogs

Programación lógica, Inteligencia Artificial, Recuperación de Información

Usabilidad, Arquitectura de la Información

Listas, foros, wikis

Matemáticas, ciencias

Miscelánea

Búsquedas

Varios

Sobre este sitio

En esta página

2.1.04

Varios sobre Recuperación de Información

[0] comentarios | # | lista |

Pro·Log·[IR], document.write(year);

Publicación: Blogger | Estadísticas: eXTReMe Tracking

Pro·Log·[IR],