<$BlogRSDUrl$>

Pro·Log·[IR]

Programación Lógica y Recuperación de Información

«Algorithm = Logic + Control» Robert Kowalski (1979)

¡Importante! esta página hace uso de estilos recogidos en la especificación CSS2, no soportados por el navegador que está utilizando. Por favor, lea esta recomendación al respecto.

Archivo

Guardado por meses.

Enlaces

Los siguientes listados son una referencia a partir de la cual ampliar la búsqueda de sitios relacionados (i).

Bitácoras en castellano

Bitácoras en inglés

Directorios, metablogs

Programación lógica, Inteligencia Artificial, Recuperación de Información

Usabilidad, Arquitectura de la Información

Listas, foros, wikis

Matemáticas, ciencias

Miscelánea

Búsquedas

Búsqueda simple en varios de los motores más conocidos. Para mayor precisión, entrar en la página correspondiente e ir al apartado de búsqueda avanzada.

Búsqueda con Google
 

Búsqueda con Yahoo!
 

Búsqueda con AlltheWeb

Varios

Esta página traducida:

Traducción al catalán, internostrum; traducción al portugués, universia.

Reciba un aviso de nuevos comentarios (por Bloglet).


Agregue este sitio a su lector de "feeds" (sindicación mediante el sistema Atom).

Sobre este sitio

Espacio dedicado a la programación lógica y la recuperación de información, con una atención especial al lenguaje Prolog y otros lenguajes afines, pertenecientes al paradigma lógico y declarativo. También se tratará de hablar de estos temas desde la perspectiva de la Biblioteconomía y la Documentación.

En esta página

2.1.04

Varios sobre Recuperación de Información

Uno de los clásicos de la literatura científica sobre recuperación de información (RI), es sin duda la obra "Information Retrieval" de C. J. van Rijsbergen (Department of Computing Science, Universidad de Glasgow). El texto completo de la segunda edición (1979) está disponible en Internet y se puede consultar en dos formatos, HTML y PDF, siendo este último el más recomendable, ya que al tratarse de un facsímil del original impreso, mantiene la integridad y por tanto la legibilidad de las fórmulas y algoritmos descritos, muy difíciles de representar correctamente en HTML puro hasta que, plugins de todo tipo aparte, MathML (estándar del W3C) sea una realidad totalmente soportada por los navegadores más extendidos; en el caso que nos ocupa se recurre, en la versión en HTML, a simples imágenes para solventar esta limitación.

Hay que hacer notar a este respecto que Mozilla soporta razonablemente bien el estándar MathML, como nos demuestra el excelente "weblog" Bitácora de matemáticas, si bien es preciso instalar previamente una serie de fuentes especiales (como se explica en esta bitácora).

A pesar de los años transcurridos desde la publicación de la obra de van Rijsbergen, los fundamentos teóricos expuestos son plenamente vigentes, no en vano es una obra de referencia en este campo que, de forma condensada, pero al tiempo con el requerido nivel de complejidad teórica, ofrece una visión general de las principales técnicas y métodos involucrados en los procesos de RI. Los temas o campos de la RI que trata son los siguientes:

Otras técnicas más o menos novedosas de representación y procesamiento, aplicadas con mayor o menor fortuna al campo de la RI (redes neuronales, conjuntos difusos, algoritmos genéticos... en el portal generation5.org existen una serie de artículos e introducciones de carácter genérico sobre estos métodos), no se contemplan en el libro ya que eran prácticamente desconocidas, o aún estaban en una fase inicial de desarrollo en la fecha de publicación original de la edición actualmente disponible electrónicamente. Tampoco creo que la intención del autor fuese abordar excesivas complejidades teóricas y conceptuales, sino por el contrario ofrecer un texto "asequible", a modo de "estado de la cuestión", pero no por ello carente de una más que suficiente profundidad teórica.

En un plano de menor nivel de complejidad teórica, pero precisamente por ello más asequible y adecuado para las personas no excesivamente versadas en estos asuntos, encontramos en hipertext.net una introducción relacionada con el tema que nos ocupa, "La evaluación en recuperación de la información". En este documento se describen los principales indicadores aceptados para valorar los resultados obtenidos en los procesos de recuperación de información. Existe en el texto alguna falta de correspondencia entre la fórmula descrita en la explicación y la representada gráficamente en la figura correspondiente, atención por tanto a este punto. A destacar la consistente bibliografía aportada.

Y ya que mencionamos el portal hipertext.net, concebido como punto de encuentro virtual para las personas interesadas en el área de la Documentación digital, destacaremos otros tres interesantes documentos, publicados en el Anuario nº 1 (mayo 2003):

Introducción a XML para Documentalistas
Introducción al lenguaje de marcado XML desde la perspectiva de su aplicación práctica a representaciones documentales, sin olvidar su presentación mediante XSLT.

Resource Description Framework (RDF)
Introducción al concepto y sintaxis de este lenguaje para la representación, procesamiento y recuperación de metadatos [1] [2].

Panorámica y tendencias en Topic Maps
Los Topics Maps o mapas conceptuales, son una forma de representación visual de la información, en este caso referida a formas de navegación hipertextual entre contenidos y recursos electrónicos, muy similares, tanto en concepto como en lo que a la forma de representación formal se refiere, a los denominados "Mind Maps" o mapas mentales [1] [2] [3].

Los mapas conceptuales que se describen en este último artículo se basan en la especificación XML Topic Maps (XTM; actualmente es un estándar ISO), consistente en una gramática basada en el meta-lenguaje XML. Cito textualmente:

"Un mapa conceptual de navegación, es la representación de un conjunto de relaciones conceptuales por medio de una estructura de proposiciones formada por conceptos y palabras enlace. Cada concepto tiene un listado de enlaces que permiten el acceso a todo tipo de documentos con contenidos relacionados directamente con el concepto representado."

Podemos consultar sobre este particular, además del portal del consorcio independiente TopicMaps.Org (encargado de la elaboración y mantenimiento de la especificación antes reseñada), la excelente introducción "What Are Topic Maps?" publicada en XML.com, y, a modo de marco teórico general, los ensayos "Concept Maps as Hypermedia Components" y "Understanding Information Collections with Maps and Visualizations", por citar algunas posibles fuentes de referencia. En Deakialli también han comentado este tema días atrás, a propósito del buscador de pago Grokker.

A fecha de hoy el único navegador que soporta la representación formal de los mapas conceptuales es IE. Y esta puntualización da pie a comentar un grave fallo de accesibilidad del portal hipertext.net, sólo se puede acceder a sus contenidos mediante el navegador de MS, lo cual no es de recibo en el actual contexto de diseño y usabilidad web, en el que la tendencia es (o pretende ser) tratar de ofrecer contenidos y recursos abiertos a toda clase de usuarios y sistemas, sin (im)poner a priori limitaciones de ningún tipo.

Retomando el tema de la RI mencionaremos también las siguientes monografías:

Otros textos y artículos sobre RI y disciplinas conexas:

Tim Craven, cuya obra "String Indexing" acabamos de referenciar, es profesor de la Facultad de Información y Estudios de Medios, Universidad Western Ontario (Canadá). En su página web encontramos recursos relacionados con su actividad docente y profesional, destacando un tutorial para la creación de tesauros, y, especialmente, una serie de programas de carácter "freeware" (para la plataforma MS Windows únicamente) orientados a prestar ayuda, fundamentalmente, en tareas relacionadas con los procesos de indexación, resumen y RI, a saber: extracción de palabras y frases (ExtPhr32), indexación de a) cadenas de texto (NEPHIS32) y b) documentos web (XRefHT32), seguimiento y ayuda automatizados en el proceso de elaboración de resúmenes (TexNet32) y, por último, creación y mantenimiento de tesauros (TheW32).

Personalmente he probado el programa que sirve como asistente y gestor en la tarea de elaborar y mantener tesauros (TheW32), y mi intención es hacer lo propio con el resto de ellos. Su funcionamiento es muy sencillo e intuitivo (ver las páginas Documentation e Introduction), siempre que se conozcan mínimamente los fundamentos teóricos relativos a los lenguajes de indización en general y los tesauros en particular, y existen varias posibilidades de visualización y exportación de parte o la totalidad de los glosarios terminológicos confeccionados, tanto en lo que se refiere al formato de archivo capaz de generar el programa (HTML, XML, RTF, texto plano...), como en lo relativo a la presentación en sí de los términos y sus relaciones.

Para obtener más información acerca de este tipo de programas, recomiendo visitar la página "Software for building and editing thesauri" en la que se recogen enlaces comentados y fuentes de referencia sobre el particular. Comienza con una breve explicación que versa sobre en qué consiste un tesauro, aunque también es posible acceder a una exposición más detallada.

Finalmente mencionar, dentro del ámbito de la RI, el proyecto SRIM ("Construcción de un sistema de recuperación de información multilingüe en la web"; finalizado en diciembre de 2003), desarrollado por investigadores procedentes de las universidades de Alicante, Jaén y Sevilla, y cuyo objetivo es la construcción de un sistema de recuperación de información multilingüe (la pregunta de consulta y los documentos recuperados no han de estar necesariamente en el mismo idioma), con capacidades añadidas de procesamiento del lenguaje natural (PLN ó NLP) tales como análisis léxico y sintáctico, entre otras. Actualmente el sistema está formado por las siguientes herramientas, operativas en línea:

Sobre la técnica pos tagging de etiquetado de las categorías gramaticales de las palabras -o etiquetado léxico de textos-, ver, en el artículo "Técnicas básicas en el tratamiento informático de la lengua" (Quark nº 19, julio-diciembre 2000, especial Las tecnologías de la lengua), el apartado "Desambiguación morfosintáctica".

Como material de apoyo, y además de la correspondiente ayuda y manuales referidos a cada una de las herramientas, también encontramos una serie de artículos y ponencias (en formato PDF, ver el apartado "Publicaciones derivadas del proyecto"), cuyo objeto de estudio es la descripción de los diversos aspectos del PLN involucrados en el desarrollo del proyecto SRIM. En general se trata de textos sólo aptos para personas muy metidas en estas cuestiones, dado su carácter especializado y su considerable nivel de complejidad teórica.

[0] comentarios | # | lista |


Pro·Log·[IR],

Publicación: Blogger | Estadísticas: eXTReMe Tracking

Se recomienda ver este sitio con Mozilla 1+, Firefox 0.8+ ó Netscape 7+. Si no queda más remedio, con IE 6+. Si lo desea, comunique cualquier problema al respecto. También será bien recibida cualquier sugerencia sobre el contenido. La fuente de letra preferente es Georgia. Se prohibe la utilización del diseño de la página salvo autorización expresa del autor. Los contenidos escritos son de uso libre, siempre que se cite la fuente.