<$BlogRSDUrl$>

Pro·Log·[IR]

Programación Lógica y Recuperación de Información

«Algorithm = Logic + Control» Robert Kowalski (1979)

¡Importante! esta página hace uso de estilos recogidos en la especificación CSS2, no soportados por el navegador que está utilizando. Por favor, lea esta recomendación al respecto.

Archivo

Guardado por meses.

Enlaces

Los siguientes listados son una referencia a partir de la cual ampliar la búsqueda de sitios relacionados (i).

Bitácoras en castellano

Bitácoras en inglés

Directorios, metablogs

Programación lógica, Inteligencia Artificial, Recuperación de Información

Usabilidad, Arquitectura de la Información

Listas, foros, wikis

Matemáticas, ciencias

Miscelánea

Búsquedas

Búsqueda simple en varios de los motores más conocidos. Para mayor precisión, entrar en la página correspondiente e ir al apartado de búsqueda avanzada.

Búsqueda con Google
 

Búsqueda con Yahoo!
 

Búsqueda con AlltheWeb

Varios

Esta página traducida:

Traducción al catalán, internostrum; traducción al portugués, universia.

Reciba un aviso de nuevos comentarios (por Bloglet).


Agregue este sitio a su lector de "feeds" (sindicación mediante el sistema Atom).

Sobre este sitio

Espacio dedicado a la programación lógica y la recuperación de información, con una atención especial al lenguaje Prolog y otros lenguajes afines, pertenecientes al paradigma lógico y declarativo. También se tratará de hablar de estos temas desde la perspectiva de la Biblioteconomía y la Documentación.

En esta página

13.1.04

Teoría Matemática de la Información

Entre los diversos modelos y teorías [1] [2] de la comunicación y la información que surgen en las décadas de los años 40 y 50 del siglo XX (e.g. el modelo de H. D. Laswell para representar los elementos del proceso comunicativo, que se resume en la frase o fórmula "¿Quién dice qué a quién a través de qué canal y con qué efecto?"), destaca, por su posterior influencia en numerosos campos, especialmente en el área de la computación y el procesamiento automatizado de la información, el modelo matemático de los ingenieros de telecomunicaciones Claude E. Shannon y Warren Weaver (Bell Laboratories). El artículo de Shannon "A Mathematical Theory of Communication" (1948) supone el punto de arranque del desarrollo de la Teoría Matemática de la Información, fundamental en la comprensión y análisis de los procesos informativos y comunicativos desde una perspectiva cuantificable y predecible. Las aportaciones de Shannon a este respecto, han sido fundamentales, por ejemplo, en el desarrollo de la criptografía y los sistemas de compresión de datos [1] [2].

Shannon trató de establecer a través de esta teoría una ecuación matemática para poder medir el valor informativo de los mensajes, tomando en consideración la "información" como un valor cuantificable en los procesos de comunicación. Inició sus investigaciones al respecto sobre la base de los avances que en el mundo de la ingeniería se habían producido como consecuencia directa del esfuerzo bélico de la II Guerra Mundial, y concretamente tomando como punto de partida sus estudios sobre cibernética en general y sobre una máquina capaz de predecir el movimiento de un móvil, con aplicaciones militares, en particular. La principal aplicación del modelo matemático de información, como era de esperar dado su especial carácter "mecanicista" y algorítmico, se ha producido en el lenguaje entre máquinas.

En un plano más general, Shannon y Weaver afirman en su teoría matemática de la información que en cualquier sistema comunicativo hay que resolver los siguientes problemas:

El eje central del modelo matemático de información es el concepto de "información relevante", también denominado "concepto de pertinencia", que en el campo matemático se traduce por la idea de "probabilidad". A grandes rasgos, implica que, a menor probabilidad de acontecer un suceso, o menor conocimiento implícito, sobre el hecho reflejado, en el proceso comunicativo, mayor relevancia informativa en el caso de acontecer dicho suceso, ya que:

La cantidad de información recibida respecto de la ocurrencia de un evento, es inversamente proporcional a su probabilidad. Una probabilidad de ocurrencia grande, ofrece una cantidad de información menor, y por ello implica menor relevancia informativa. La relación entre cantidad de información (I) y probabilidad de la ocurrencia (p), o medida de la información, se expresa formalmente en el modelo matemático de Shannon y Weaver mediante la ecuación I=log21/p, donde:

Un concepto muy importante introducido por Shannon y Weaver en su teoría es el de "entropía", o información promedio de un mensaje (cantidad de información media). Siendo iguales las probabilidades de una serie de mensajes, la fórmula matemática que permite determinar la entropía total es H=log2N (donde N es igual al número de mensajes posibles en el conjunto). El término "entropía" [1] [2] se toma prestado del dominio de estudio de la termodinámica, en el que adquiere un sentido diferente. Así, el "principio de entropía universal" establece que los sistemas termodinámicos sometidos a fenómenos aleatorios o cíclicos, tienden ha adoptar los estados que requieren menor consumo de energía.

Gráficamente, el esquema comunicativo implícito en el modelo matemático de la información se puede resumir de la siguiente forma:

                          (distorsiona)
             Transmisión*     Ruido      Receptor        (interpreta)
Emisor ------>         ------->   ------->      -------> Destinatario
       Mensaje          Señal**    Señal**     Decodifica

 (*) El mensaje es codificado por el transmisor
(**) A través de un canal

El canal es el soporte a través del cual se "transporta" la información. El concepto de "código" es inherente a este esquema, entendiendo por tal el conjunto de signos, comunes al emisor y al receptor, que permiten la codificación de un mensaje y por tanto la comunicación. No puede haber comunicación sin un consenso previo acerca del código a utilizar tanto por parte del emisor como por parte del receptor.

El modelo de Shannon y Weaver tiene muchas aplicaciones, referidas sobre todo a situaciones de comunicación no humana (en las que tiene muchas limitaciones), específicamente lenguaje entre máquinas y telecomunicaciones, donde las posibilidades de error o ambigüedad en la utilización del código son mínimas. Según el planteamiento de este modelo, se entiende por "información" los datos o conocimientos que estos originan, considerados novedosos o relevantes por un receptor en un momento dado, a fin de paliar su ignorancia o reducir su incertidumbre sobre una materia.

Un ejemplo práctico de aplicación de los principios matemáticos y algorítmicos de la Teoría de la Información a los sistemas automáticos de tratamiento y recuperación de información (en este caso en combinación con procesos de inferencia bayesiana), es Autonomy, programa del que se hacía eco Abraldes hace ya algún tiempo.

Así mismo, la mayoría de las heurísticas utilizadas para el establecimiento de árboles de decisión mediante algoritmos de aprendizaje, se basan en la teoría matemática de la información. Los árboles de decisión son una forma de representación del conocimiento que permite "clasificar ejemplos en un número finito de clases" (fuente). Las heurísticas son criterios, métodos o principios que permiten decidir, de entre varias alternativas de acción, cuál será la más efectiva para cumplir determinada meta. Permiten restringir el número de evaluaciones, de forma que repercuten en una mejora de los tiempos empleados en la búsqueda de soluciones.

Shannon es por otra parte, dentro del contexto de la Teoría Matemática de la Información desarrollada junto con Weaver, autor de una aportación fundamental al desarrollo de la computación: la asociación del sistema binario a un circuito eléctrico (de relés en un principio), sobre la base de teoremas de lógica matemática. En el sistema binario, la circulación de corriente se corresponde generalmente al 1, y el 0 al estado contrario (ausencia de corriente).

Shannon comenzó sus trabajos al respecto en Alemania (1938), estudiando la aplicación de la teoría del Álgebra de Boole [1] [2] a la representación de circuitos lógicos, y desarrollando una incipiente Teoría de la Información. En 1948 publica, como ya dijimos al principio, "A mathematical theory of communication", trabajo en el que expone la posibilidad de automatizar operaciones matemáticas complejas por medio de los circuitos de relés utilizados en telefonía, haciendo uso de la lógica binaria (los fundamentos de la aplicación de la aritmética binaria, luego utilizados por los pioneros de la computación en el siglo XX -Atanasoff, von Neumann, entre otros-, fueron establecidos en parte por Charles Babbage ya en la primera mitad del siglo XIX) y el álgebra booleana. Este principio descompone cualquier problema matemático complejo en una mínima expresión, representada mediante código binario, que permite únicamente dos posibles estados: -no, 0-1, abierto-cerrado...

"En los circuitos electrónicos, desde el punto de vista lógico, suele representarse la presencia de tensión en un punto del circuito [...] por medio de un 1, correspondiendo el 0 a la ausencia de tensión. Si se hacen las consideraciones anteriores, se dice que se está utilizando lógica positiva (utilizada en la mayoría de los casos). Por otro lado, si se asocia el 0 a la presencia de tensión y el 1 a la ausencia de la misma, se dice que se utiliza lógica negativa." (p. 23)

En Informática Básica; E. Alcalde et al; Ed. McGraw-Hill, 1989; ISBN: 84-7615-241-8

En el libro que se acaba de citar, concretamente en el capítulo 2 (página 23 y siguientes), se explica de forma sencilla y clara las formas de representación de la información mediante sistemas de numeración en el ámbito de la computación digital.

El término que utiliza Shannon para denominar la bivalencia del sistema binario es el de información. La unidad básica de la representación binaria en computación, unidad básica de información para Shannon, es el "bit" (binary digit) y se corresponde a uno de los dos estados de valor descritos.

El modelo matemático de Shannon y Weaver presenta algunas limitaciones desde el punto de vista de los modelos comunicativos (o modelos de comunicación social):

En las situaciones de comunicación cotidianas, el cálculo de probabilidades no es un acto previo, de hecho éste no forma parte del conjunto de habilidades que hacen posible los procesos de verbalización del pensamiento y aprehensión de la realidad exterior al sujeto, y en definitiva los procesos comunicativos que caracterizan al ser humano en su interacción social.

El modelo da por sentado la existencia de un único código comunicativo. Sin embargo, en la comunicación humana se hallan presentes "subcódigos", que son todos aquellos elementos culturales, ideológicos, afectivos, económicos, etc., que subyacen en la forma de expresión del lenguaje humano. Los subcódigos comunicativos condicionan, tanto el sentido inicial dado al mensaje, como el sentido en que dicho mensaje es interpretado por el receptor, lo que hace que la comunicación entre humanos no tenga siempre un sentido idéntico y unívoco. Así mismo, son la razón por la cual los mensajes pueden tener diferente interpretación a lo largo del tiempo, a medida que los subcódigos subyacentes a un determinado significado van variando.

El valor concedido a la información varía de un individuo a otro: no existe una valoración unitaria, de forma que el concepto y el valor de la relevancia es distinto si tomamos en consideración diferentes receptores. Tampoco la información se halla totalmente relacionada con lo novedoso o desconocido por un individuo: su estado de conocimiento previo sin duda condiciona el valor informativo y la relevancia de los hechos comunicados.

Con posterioridad a la aparición de la Teoría Matemática de la Información, otros autores, como Osgood y Schramm en su "modelo circular", aportarán un concepto de información y comunicación no meramente basado en parámetros "matemáticos" o "probabilísticos", de simple transmisión de información de un punto a otro (una visión "física" de la comunicación en definitiva), en un intento de superar el modelo matemático de Shannon y Weaver y sus limitaciones en el estudio y comprensión de los procesos comunicativos de las sociedades humanas. Para estos teóricos, "comunicación" será sinónimo de "poner en común algo", atribuyendo al término un sentido que coincide con el significado etimológico de la palabra, y se interesarán acerca de qué es lo que se pone en común (comunicación interpersonal y comunicación colectiva).

Se puede encontrar una explicación más detallada de Teoría de la Información de Shannon y sus fundamentos matemáticos, algorítimos y lógicos, en los enlaces que se relacionan a continuación:

[0] comentarios | # | lista |

2.1.04

Varios sobre Recuperación de Información

Uno de los clásicos de la literatura científica sobre recuperación de información (RI), es sin duda la obra "Information Retrieval" de C. J. van Rijsbergen (Department of Computing Science, Universidad de Glasgow). El texto completo de la segunda edición (1979) está disponible en Internet y se puede consultar en dos formatos, HTML y PDF, siendo este último el más recomendable, ya que al tratarse de un facsímil del original impreso, mantiene la integridad y por tanto la legibilidad de las fórmulas y algoritmos descritos, muy difíciles de representar correctamente en HTML puro hasta que, plugins de todo tipo aparte, MathML (estándar del W3C) sea una realidad totalmente soportada por los navegadores más extendidos; en el caso que nos ocupa se recurre, en la versión en HTML, a simples imágenes para solventar esta limitación.

Hay que hacer notar a este respecto que Mozilla soporta razonablemente bien el estándar MathML, como nos demuestra el excelente "weblog" Bitácora de matemáticas, si bien es preciso instalar previamente una serie de fuentes especiales (como se explica en esta bitácora).

A pesar de los años transcurridos desde la publicación de la obra de van Rijsbergen, los fundamentos teóricos expuestos son plenamente vigentes, no en vano es una obra de referencia en este campo que, de forma condensada, pero al tiempo con el requerido nivel de complejidad teórica, ofrece una visión general de las principales técnicas y métodos involucrados en los procesos de RI. Los temas o campos de la RI que trata son los siguientes:

Otras técnicas más o menos novedosas de representación y procesamiento, aplicadas con mayor o menor fortuna al campo de la RI (redes neuronales, conjuntos difusos, algoritmos genéticos... en el portal generation5.org existen una serie de artículos e introducciones de carácter genérico sobre estos métodos), no se contemplan en el libro ya que eran prácticamente desconocidas, o aún estaban en una fase inicial de desarrollo en la fecha de publicación original de la edición actualmente disponible electrónicamente. Tampoco creo que la intención del autor fuese abordar excesivas complejidades teóricas y conceptuales, sino por el contrario ofrecer un texto "asequible", a modo de "estado de la cuestión", pero no por ello carente de una más que suficiente profundidad teórica.

En un plano de menor nivel de complejidad teórica, pero precisamente por ello más asequible y adecuado para las personas no excesivamente versadas en estos asuntos, encontramos en hipertext.net una introducción relacionada con el tema que nos ocupa, "La evaluación en recuperación de la información". En este documento se describen los principales indicadores aceptados para valorar los resultados obtenidos en los procesos de recuperación de información. Existe en el texto alguna falta de correspondencia entre la fórmula descrita en la explicación y la representada gráficamente en la figura correspondiente, atención por tanto a este punto. A destacar la consistente bibliografía aportada.

Y ya que mencionamos el portal hipertext.net, concebido como punto de encuentro virtual para las personas interesadas en el área de la Documentación digital, destacaremos otros tres interesantes documentos, publicados en el Anuario nº 1 (mayo 2003):

Introducción a XML para Documentalistas
Introducción al lenguaje de marcado XML desde la perspectiva de su aplicación práctica a representaciones documentales, sin olvidar su presentación mediante XSLT.

Resource Description Framework (RDF)
Introducción al concepto y sintaxis de este lenguaje para la representación, procesamiento y recuperación de metadatos [1] [2].

Panorámica y tendencias en Topic Maps
Los Topics Maps o mapas conceptuales, son una forma de representación visual de la información, en este caso referida a formas de navegación hipertextual entre contenidos y recursos electrónicos, muy similares, tanto en concepto como en lo que a la forma de representación formal se refiere, a los denominados "Mind Maps" o mapas mentales [1] [2] [3].

Los mapas conceptuales que se describen en este último artículo se basan en la especificación XML Topic Maps (XTM; actualmente es un estándar ISO), consistente en una gramática basada en el meta-lenguaje XML. Cito textualmente:

"Un mapa conceptual de navegación, es la representación de un conjunto de relaciones conceptuales por medio de una estructura de proposiciones formada por conceptos y palabras enlace. Cada concepto tiene un listado de enlaces que permiten el acceso a todo tipo de documentos con contenidos relacionados directamente con el concepto representado."

Podemos consultar sobre este particular, además del portal del consorcio independiente TopicMaps.Org (encargado de la elaboración y mantenimiento de la especificación antes reseñada), la excelente introducción "What Are Topic Maps?" publicada en XML.com, y, a modo de marco teórico general, los ensayos "Concept Maps as Hypermedia Components" y "Understanding Information Collections with Maps and Visualizations", por citar algunas posibles fuentes de referencia. En Deakialli también han comentado este tema días atrás, a propósito del buscador de pago Grokker.

A fecha de hoy el único navegador que soporta la representación formal de los mapas conceptuales es IE. Y esta puntualización da pie a comentar un grave fallo de accesibilidad del portal hipertext.net, sólo se puede acceder a sus contenidos mediante el navegador de MS, lo cual no es de recibo en el actual contexto de diseño y usabilidad web, en el que la tendencia es (o pretende ser) tratar de ofrecer contenidos y recursos abiertos a toda clase de usuarios y sistemas, sin (im)poner a priori limitaciones de ningún tipo.

Retomando el tema de la RI mencionaremos también las siguientes monografías:

Otros textos y artículos sobre RI y disciplinas conexas:

Tim Craven, cuya obra "String Indexing" acabamos de referenciar, es profesor de la Facultad de Información y Estudios de Medios, Universidad Western Ontario (Canadá). En su página web encontramos recursos relacionados con su actividad docente y profesional, destacando un tutorial para la creación de tesauros, y, especialmente, una serie de programas de carácter "freeware" (para la plataforma MS Windows únicamente) orientados a prestar ayuda, fundamentalmente, en tareas relacionadas con los procesos de indexación, resumen y RI, a saber: extracción de palabras y frases (ExtPhr32), indexación de a) cadenas de texto (NEPHIS32) y b) documentos web (XRefHT32), seguimiento y ayuda automatizados en el proceso de elaboración de resúmenes (TexNet32) y, por último, creación y mantenimiento de tesauros (TheW32).

Personalmente he probado el programa que sirve como asistente y gestor en la tarea de elaborar y mantener tesauros (TheW32), y mi intención es hacer lo propio con el resto de ellos. Su funcionamiento es muy sencillo e intuitivo (ver las páginas Documentation e Introduction), siempre que se conozcan mínimamente los fundamentos teóricos relativos a los lenguajes de indización en general y los tesauros en particular, y existen varias posibilidades de visualización y exportación de parte o la totalidad de los glosarios terminológicos confeccionados, tanto en lo que se refiere al formato de archivo capaz de generar el programa (HTML, XML, RTF, texto plano...), como en lo relativo a la presentación en sí de los términos y sus relaciones.

Para obtener más información acerca de este tipo de programas, recomiendo visitar la página "Software for building and editing thesauri" en la que se recogen enlaces comentados y fuentes de referencia sobre el particular. Comienza con una breve explicación que versa sobre en qué consiste un tesauro, aunque también es posible acceder a una exposición más detallada.

Finalmente mencionar, dentro del ámbito de la RI, el proyecto SRIM ("Construcción de un sistema de recuperación de información multilingüe en la web"; finalizado en diciembre de 2003), desarrollado por investigadores procedentes de las universidades de Alicante, Jaén y Sevilla, y cuyo objetivo es la construcción de un sistema de recuperación de información multilingüe (la pregunta de consulta y los documentos recuperados no han de estar necesariamente en el mismo idioma), con capacidades añadidas de procesamiento del lenguaje natural (PLN ó NLP) tales como análisis léxico y sintáctico, entre otras. Actualmente el sistema está formado por las siguientes herramientas, operativas en línea:

Sobre la técnica pos tagging de etiquetado de las categorías gramaticales de las palabras -o etiquetado léxico de textos-, ver, en el artículo "Técnicas básicas en el tratamiento informático de la lengua" (Quark nº 19, julio-diciembre 2000, especial Las tecnologías de la lengua), el apartado "Desambiguación morfosintáctica".

Como material de apoyo, y además de la correspondiente ayuda y manuales referidos a cada una de las herramientas, también encontramos una serie de artículos y ponencias (en formato PDF, ver el apartado "Publicaciones derivadas del proyecto"), cuyo objeto de estudio es la descripción de los diversos aspectos del PLN involucrados en el desarrollo del proyecto SRIM. En general se trata de textos sólo aptos para personas muy metidas en estas cuestiones, dado su carácter especializado y su considerable nivel de complejidad teórica.

[0] comentarios | # | lista |


Pro·Log·[IR],

Publicación: Blogger | Estadísticas: eXTReMe Tracking

Se recomienda ver este sitio con Mozilla 1+, Firefox 0.8+ ó Netscape 7+. Si no queda más remedio, con IE 6+. Si lo desea, comunique cualquier problema al respecto. También será bien recibida cualquier sugerencia sobre el contenido. La fuente de letra preferente es Georgia. Se prohibe la utilización del diseño de la página salvo autorización expresa del autor. Los contenidos escritos son de uso libre, siempre que se cite la fuente.