Modelo de Recuperación de Información Fuzzy
Transcripción
Modelo de Recuperación de Información Fuzzy
Modelo de Recuperación de Información Fuzzy Maité Torres Sánchez1, Lourdes Garrido Martínez1 1 Facultad de Matemática y Computación, Universidad de la Habana, Cuidad de La Habana, Cuba {m.torres, l.garrido}@lab.matcom.uh.cu Resumen: Los Sistemas de Recuperación de Información (SRI) han adquirido una gran importancia en el uso cotidiano de los ordenadores, hasta el punto de que realizar una consulta en un buscador es una de las acciones más frecuentes que realizan los usuarios hoy día. Existen diversos modelos empleados para representar los documentos y consultas en los SRI. Entre los más utilizados están los modelos Clásicos, dentro de los cuales se encuentra el modelo Booleano y una extensión del mismo es el modelo Fuzzy (difuso), que se abordará en este artículo, se define formalmente, así como se realiza una comparación con otros modelos, se presentan además ventajas y desventajas del mismo. Abstract. The Information Retrieval Systems (IRS) have acquired a great importance in the daily use of computers, until the point that to carry out a query in a searcher is one of the most frequent actions that the users executed nowadays. There are many models used to represent documents and queries in IRS. Classic models are among those most used ones, inside which is the Boolean model and an extension of this is the Fuzzy model that will be approached in this article, it is formally defined, as well as a comparison with other models, are also advantages and disadvantages of the same one. Palabras Claves: modelo, Lógica Difusa, Recuperación de Información, término indexado. 1 Introducción Los avances tecnológicos de los últimos cincuenta años han provocado un aumento exponencial de la información y una mejora de su difusión. Hoy nos hallamos inmersos en una revolución de la información, cada vez tenemos más disponible y mayores posibilidades para accederla. El proceso de digitalización de los documentos así como el desarrollo de nuevas tecnologías de la información tanto en su creación, como en su distribución y acceso, son claros ejemplos de esta revolución, la cual ha permitido su acceso y uso por un número ilimitado de usuarios. Todo ello nos sitúa dentro de un entorno en desarrollo de información electrónica a la que se puede acceder por medios automáticos. El término Recuperación de Informacion, fue mencionado por primera vez hacia el año de 1950 – aunque es claro que este es un concepto que en la práctica data de muchos años atrás – cuando Calvin N. Mooers1 la definió como "la búsqueda de información en un stock de documentos, efectuada a partir de la especificación de un tema"[1], aunque este mismo autor más adelante decide ampliar aún más este concepto manifestando para tal fin que “la Recuperación de Información abarca los aspectos intelectuales de la descripción de información y su especificación para la búsqueda, y cualquier sistema, técnica o máquina que se utilice para llevar a cabo la operación”, y con esto, claramente, abre el concepto haciéndolo aplicable aún hoy, cuando ya han transcurrido más de 50 años y claramente las tecnologías usadas para este proceso han cambiado significativamente. Una de las etapas fundamentales en el proceso de Recuperación de Información es la elección del modelo adecuado para representar los documentos y consultas [3]. En la actualidad existen una gran diversidad de modelos, entre los que se destacan los Clásicos: Booleano, Vectorial y Probabilístico. El modelo Booleano es un modelo de recuperación simple, basado en la teoría de conjuntos y el álgebra booleana. Dada su inherente simplicidad y su pulcro formalismo ha recibido gran atención y ha sido adoptado por muchos de los primeros sistemas bibliográficos comerciales. Su estrategia de recuperación está basada en un criterio de decisión binario sin ninguna noción de escala de relevancia de un documento a una consulta, lo cual genera una problemática: básicamente 1 Calvin Northrup Mooers (1919 - 1994) fue un programador informático y documentalista científico estadounidense. Modelo de Recuperación de Información Fuzzy 2 tenemos que considerar la relevancia de un documento como un aspecto puramente binario. Debido a esto surgen dos modelos alternativos: Modelo Fuzzy. Modelo Booleano Extendido. En el presente artículo se abordará el modelo Fuzzy propuesto por Yasushi Ogawa, Tetsuya Morita y Kiyohiko Kobayashi. El mismo sienta sus bases en la lógica difusa que se explicará brevemente. El objetivo fundamental de este documento es presentar el modelo Fuzzy para ello se ha dividido en seis secciones principales, además de esta. En la segunda sección se realiza una introducción a la lógica difusa, presentando sus conceptos fundamentales. En las siguientes secciones se aborda el modelo Fuzzy defiendo como se representan los documentos y consultas, así como la manera de evaluar el grado de relevancia de los documentos ante una consulta. Posteriormente se presenta un ejemplo práctico del mismo. En la sección seis se muestra una comparación de los modelos Booleano, Booleano Extendido y el Fuzzy. En la siguiente sección se abordan las principales ventajas y desventajas del modelo Fuzzy con el objetivo de que el lector pueda realizar su propia valoración del mismo. 2 Introducción a la Lógica Difusa2 La lógica difusa es una clase de lógica multivaluada, y permite manejar verdades parciales, a diferencia de la lógica binaria clásica donde los valores son falsos o verdaderos sin grado intermedio. En 1965, Zadeh3 propuso la teoría de conjuntos difusos, la cual es su fundamento matemático. Por medio de la lógica difusa, términos que son inherentemente ambiguos pero que son útiles para los humanos pueden ahora ser procesados por computadoras en base a la definición de conjuntos difusos y variables lingüísticas. La lógica difusa presenta varias ventajas ya que es fácil de entender y muy intuitiva puesto que está basada en términos lingüísticos. Es tolerante a datos imprecisos y también es una herramienta para expresar conocimiento tanto de expertos como de sentido común. La lógica difusa también ha sido usada como una herramienta para modelar emociones en varias aplicaciones porque imita la lógica humana. Los estados emocionales no tienen límites precisos, y el solapamiento que se presenta en ellos no es modelable usando valores booleanos. Además, es posible experimentar varias emociones al mismo tiempo. Un individuo puede estar un poco triste y muy enojado al mismo tiempo, lo cual puede ser fácilmente modelable usando lógica difusa. 2.1 Conjuntos difusos La necesidad de trabajar con conjuntos difusos surge del hecho que existen conceptos que no tiene límites claros. Un conjunto difuso se encuentra asociado a una etiqueta lingüística. La función de pertenencia a un conjunto difuso puede tomar valores entre 0 y 1. Formalmente puede definirse como: Definición: Un conjunto difuso A en un universo puede definirse como función de pertenencia y U es el universo. { | } . Donde Definición: Una función de pertenencia de un conjunto difuso A sobre un universo de discurso U es de la forma µA: U → [0,1], donde a cada elemento de U le corresponde un valor entre 0 y 1. Este valor, llamado valor de pertenencia o grado de pertenencia, representa el grado en el que el elemento de U pertenece al conjunto difuso A [5]. 2 3 Fig. 1 Ejemplo de conjunto difuso. Fuzzy Logic en inglés. Lotfi Asker Zadeh (1921- ) Matemático azerbaiyano profesor de la Universidad de Berkeley. es la Modelo de Recuperación de Información Fuzzy 3 2.1.1 Operaciones básicas Al igual que en la lógica clásica, en la lógica difusa existen tres operaciones básicas sobre conjuntos: la unión, la intersección y el complemento [5]. Unión: Sean µA y µB dos funciones de pertenencia que representan los conjuntos difusos A y B respectivamente en el universo X, podemos definir la unión mediante la siguiente función de pertenencia (1): µA µB(x) = Max(µA(x),µB(x)) (1) Intersección: Sean µA y µB dos funciones de pertenencia que representan los conjuntos borrosos A y B respectivamente en el universo X, podemos definir la intersección mediante la siguiente función de pertenencia (2): µA∩ µB (x) = Min(µA(x),µB(x)) (2) Complemento: Sea µA una función de pertenencia que representa el conjunto difuso A en el universo X, podemos definir el complementario mediante la siguiente función de pertenencia (3): µCA (x) = 1 - µA(x) (3) 3 Modelo Fuzzy El Modelo Booleano es un modelo de recuperación simple basado en la teoría de conjuntos y en el álgebra booleana. Los documentos se representan mediante términos índice. La relevancia es binaria: un documento es relevante o no, lo cual representa una dificultad porque no se tiene el grado de relevancia además no considera la relación existente entre los diferentes términos indexados. El Modelo Fuzzy intenta solucionar estos problemas basándose en la lógica difusa. De manera general para cada término se define un conjunto difuso donde cada documento tendrá un determinado grado de pertenencia. A continuación se explican los componentes de este modelo. 3.1 Conjunto de documentos (D) Los documentos se representan de manera similar al modelo booleano a partir de un vector de términos indexados, donde en la componente i-ésima aparecerá un 1 si el término aparece en el documento, 0 en caso contrario. 3.2 Conjunto de consultas (Q) En el Modelo Fuzzy al igual que en el Booleano las consultas están compuestas por términos indexados y por los operadores AND, OR y NOT, por lo cual son expresiones booleanas. Para facilitar el manejo de dicha consulta esta puede llevarse a Forma Normal Disyuntiva y luego a Forma Normal Disyuntiva Completa respecto a todos los términos indexados del sistema. Definición: Una fórmula A se denomina un literal, si A es una variable proposicional o la negación de una variable proposicional. Si un literal es una variable proposicional se denomina literal positivo, en el otro caso se denomina un literal negativo. [6] Definición: Una fórmula A se denomina una forma normal disyuntiva (FND) si A es de la forma cada Ai, 1 ≤ i ≤ n es una conjunción de literales. [6] Teorema: Para toda fórmula A puede hallarse una formula A' en FND tal que y . [6] La demostración de este teorema es constructiva y consiste en transformar la fórmula A en una FND A' aplicando repetidamente leyes que preservan la equivalencia lógica de las fórmulas. [6] Modelo de Recuperación de Información Fuzzy Por ejemplo, la consulta: escrita en forma normal disyuntiva como: 4 asumiendo que a, b y c son los términos del sistema, puede ser (6) Definición: Una fórmula A se encuentra en Forma Normal Disyuntiva Completa (FNDC) si está en FND y en cada componente conjuntiva aparecen todas las variables y ninguna variable aparece más de una vez. Luego de tener una fórmula expresada en forma normal disyuntiva aplicando transformaciones equivalentes esta puede ser llevada a FNDC. La idea es agregar expresiones de la forma si en la componente disyuntiva falta la variable a. La FNDC para la fórmula q (4) quedaría de la siguiente manera: (7) La facilidad que nos brinda la FNDC es precisamente que la componente conjuntiva j-ésima (ccj) puede ser representada como vector con tantas componentes como variables tenga la fórmula y la tendrá un 1 en la posición i si la variable i aparece positiva y un 0 si aparece negada. La fórmula q (4) nos quedaría: , en la figura 1 se ilustra gráficamente dicha fórmula. Fig. 2 Representación de la fórmula q [4]. 3.3 Evaluación de una consulta La función de Ranking (R) evalúa el grado en el que las representaciones de los documentos satisfacen los requisitos expresados en la consulta y recupera aquellos que son relevantes a la misma. Este modelo utiliza varios componentes para realizar dicha evaluación basados en la teoría de conjuntos difusos abordada anteriormente. A continuación se explican estos componentes. 3.3.1 Matriz de correlación Dentro de las características de modelo Fuzzy tenemos que mantiene las relaciones entre los términos indexados con el objetivo de ampliar el conjunto de términos indexados de un documento con otros términos que se relacionen con estos, lo cual hace posible que se puedan recuperar documentos relevantes adicionales [4]. Por ejemplo si en una consulta aparece el término profesor de recuperarán los documentos que contengan el término maestro. Para almacenar estas relaciones se utiliza una estructura denominada Matriz de Correlación cuyas filas y columnas están asociadas a términos indexados y en la posición i,j se almacena la relación que existe entre el término i y el término j. Para ello se define un factor de correlación normalizado (0 ≤ cij ≤ 1) entre los términos ki y kj, que se calcula de la siguiente forma (8): Modelo de Recuperación de Información Fuzzy 5 Donde ni es la cantidad de documentos que contienen al término k i, nj es la cantidad de documentos que contienen al término kj y nij es la cantidad de documentos que contienen ambos términos [4]. Un ejemplo de matriz de correlación podría ser: 3.3.2 Definición de los conjuntos difusos En este modelo se va a definir un conjunto difuso para cada término indexado ki. Luego cada documento tendrá un grado de pertenencia a cada uno de dichos conjuntos. El grado de pertenencia del documento dj al conjunto difuso asociado al término ki se calcula de la manera siguiente: ∏ Por lo tanto siempre que exista al menos un término kl del documento dj que esté fuertemente relacionado con ki (o sea, 1) entonces y el índice ki es un índice relevante para el documento dj. En el caso de que todos los índices del documento dj están débilmente relacionados con ki, entonces ki no es un buen índice difuso para dj (o sea, ). 3.3.3 Función de Ranking (R) El objetivo de esta función es evaluar la relevancia de un documento dj a una consulta q y se calcula mediante la siguiente expresión: ∏( ) donde: p es la cantidad de componentes conjuntivas de q. representa el grado de pertenencia dj a la componente conjuntiva i-ésima de q y se calcula de la siguiente manera: ∏ tal que: n representa el total de términos indexados y { (11) Después de calculada la relevancia de cada documento a la consulta se establece un umbral de relevancia y se recuperan todos los documentos cuyo grado de relevancia sea mayor que el umbral definido. 3.4 Definición formal del Modelo Fuzzy D: Vectores binarios (en la componente i-ésima poseerá un 1 si el documento contiene el índice i, 0 en caso contrario). Q: Expresión booleana en la que intervienen los índices y los operadores AND, OR y NOT. Finalmente esta expresión se transforma en una FNDC donde cada componente conjuntiva es un vector binario. Modelo de Recuperación de Información Fuzzy 6 F: Teoría de Conjuntos Difusos y Álgebra Booleana. ∏ R: 4 Ejemplo Supongamos que tenemos un Sistema de Recuperación de Información que posee tres términos indexados k 1, k2 y k3, cuya matriz de correlación es la siguiente: Se tiene una representación del documento d3 tal que d3= (0,1,1). Y se desea calcular el grado de relevancia de d 3 a la siguiente consulta . Solución Llevemos q a FNDC Finalmente nos quedaría Calculemos los grados de pertinencia de d3 a los conjuntos difusos definidos por cada índice. ( ) ( ) ( ) ( ) ( ) ( ) Ya estamos en condiciones de calcular ( )( ) 5 Ventajas y desventajas A continuación se presentan un grupo de ventajas y desventajas de este modelo. Ventajas - Es capaz de recuperar documentos que no incluyan exactamente los mismos términos de la consulta. A diferencia del modelo Booleano tradicional define un ranking entre los documentos recuperados mediante la función de pertenencia explicada anteriormente. Tiene en cuenta la relación existente entre los índices, almacenada en la matriz de correlación. Modelo de Recuperación de Información Fuzzy 7 Desventajas - Su implementación puede ser un poco más costosa de la de otros modelos, entre otra cosas por la gran cantidad de cálculos aritméticos que deben realizarse para evaluar una consulta. No tiene en cuenta la frecuencia de ocurrencias de un término en un documento. O sea la función de ranking no prioriza documentos que tengan 100 veces la palabra casa, sobre documentos que contengan una sola ocurrencia de esta palabra. 6 Comparación con otros modelos En el siguiente epígrafe se presenta un cuadro comparativo entre los modelos Booleano, Booleano Extendido y Fyzzy. Tabla 1. Comparación entre los modelos. Criterio Modelo Booleano Booleano Extendido Fuzzy Documentos (D) Vectores de pesos binarios. Vectores de pesos no binarios. Vectores de pesos binarios Consultas (Q) Expresiones booleanas. Expresiones booleanas. Expresiones booleanas. Framework (F) Teoría de Conjuntos y Álgebra de Boole. Algebra Booleana y operaciones en espacios t-dimensional. Teoría de Conjuntos difusos y Álgebra de Boole. Grado de Relevancia {0,1} [0,1] dependiendo de las operaciones booleanas. [0,1] definida por la función de membresía. Pesos Binarios. No binaries. Binarios. Ranking entre documentos No. Sí. Sí. Macheo parcial No. Sí. Sí. No. Sí. Dependencia entre No. términos 7 Conclusiones El modelo Fuzzy resuelve algunos de los inconvenientes que posee el modelo Booleano, aunque es importante destacar que al no darle importancia a la cantidad de ocurrencias de un término dentro de un documento puede perderse eficacia en el resultado de la evaluación de una consulta. Otra característica importante es que al mantener la interrelación entre los términos indexados, en sistemas donde se almacene un gran volumen de información pudiera resultar costoso la construcción de la matriz de correlación. A pesar de estos problemas la idea del modelo Fuzzy es bastante interesante y aunque no es muy popular puede servir como base a otros modelos. Modelo de Recuperación de Información Fuzzy 8 8 Referencias 1. Sitio: Recuperación de Informacion. Diponible en: http://recuperaciondinformacion.blogspot.com/2010/08/algunos-apuntes-dehistoria-en-la.html. [Consultado 6 de septiembre 2012] 2. Salvador Oliván, José Antonio. Arquero Avilés, Rosario. Una aproximación al concepto de Recuperación de Información en el marco de la ciencia de la documentación. México: Investigación Bibliotecológica, 2006. Vol. 20, Nº 41, pp. 13-41Disponible en: http://eprints.rclis.org/archive/00010615/01/IBI002004101.pdf 3. Oliva Santos, R. Introducción a los Sistemas de Recuperación de Información, 2012-2013. 4. Baeza-Yates, R. y Ribeiro-Neto, B., Modern Information Retrieval I, Octubre, 1998. 5. Sitio: eMathTeacher: Método de Mamdani de Inferencia Borrosa. Disponible en: http://www.dma.fi.upm.es/research/FundMatSoftComputing/fuzzyinf/main.htm . [Consultado 6 de septiembre 2012] 6. García Garrido, L. Introducción a la Teoría de Conjuntos y a la Lógica. Cuba: 2002.