Modelo de Recuperación de Información Fuzzy

Transcripción

Modelo de Recuperación de Información Fuzzy
Modelo de Recuperación de Información Fuzzy
Maité Torres Sánchez1, Lourdes Garrido Martínez1
1
Facultad de Matemática y Computación, Universidad de la Habana, Cuidad de La Habana, Cuba
{m.torres, l.garrido}@lab.matcom.uh.cu
Resumen: Los Sistemas de Recuperación de Información (SRI) han adquirido una gran importancia en el uso
cotidiano de los ordenadores, hasta el punto de que realizar una consulta en un buscador es una de las acciones
más frecuentes que realizan los usuarios hoy día. Existen diversos modelos empleados para representar los
documentos y consultas en los SRI. Entre los más utilizados están los modelos Clásicos, dentro de los cuales se
encuentra el modelo Booleano y una extensión del mismo es el modelo Fuzzy (difuso), que se abordará en este
artículo, se define formalmente, así como se realiza una comparación con otros modelos, se presentan además
ventajas y desventajas del mismo.
Abstract. The Information Retrieval Systems (IRS) have acquired a great importance in the daily use of
computers, until the point that to carry out a query in a searcher is one of the most frequent actions that the users
executed nowadays. There are many models used to represent documents and queries in IRS. Classic models are
among those most used ones, inside which is the Boolean model and an extension of this is the Fuzzy model that
will be approached in this article, it is formally defined, as well as a comparison with other models, are also
advantages and disadvantages of the same one.
Palabras Claves: modelo, Lógica Difusa, Recuperación de Información, término indexado.
1 Introducción
Los avances tecnológicos de los últimos cincuenta años han provocado un aumento exponencial de la información y
una mejora de su difusión. Hoy nos hallamos inmersos en una revolución de la información, cada vez tenemos más
disponible y mayores posibilidades para accederla. El proceso de digitalización de los documentos así como el
desarrollo de nuevas tecnologías de la información tanto en su creación, como en su distribución y acceso, son claros
ejemplos de esta revolución, la cual ha permitido su acceso y uso por un número ilimitado de usuarios.
Todo ello nos sitúa dentro de un entorno en desarrollo de información electrónica a la que se puede acceder por
medios automáticos. El término Recuperación de Informacion, fue mencionado por primera vez hacia el año de 1950
– aunque es claro que este es un concepto que en la práctica data de muchos años atrás – cuando Calvin N. Mooers1
la definió como "la búsqueda de información en un stock de documentos, efectuada a partir de la especificación de
un tema"[1], aunque este mismo autor más adelante decide ampliar aún más este concepto manifestando para tal fin
que “la Recuperación de Información abarca los aspectos intelectuales de la descripción de información y su
especificación para la búsqueda, y cualquier sistema, técnica o máquina que se utilice para llevar a cabo la
operación”, y con esto, claramente, abre el concepto haciéndolo aplicable aún hoy, cuando ya han transcurrido más
de 50 años y claramente las tecnologías usadas para este proceso han cambiado significativamente.
Una de las etapas fundamentales en el proceso de Recuperación de Información es la elección del modelo adecuado
para representar los documentos y consultas [3]. En la actualidad existen una gran diversidad de modelos, entre
los que se destacan los Clásicos: Booleano, Vectorial y Probabilístico. El modelo Booleano es un modelo de
recuperación simple, basado en la teoría de conjuntos y el álgebra booleana. Dada su inherente simplicidad y
su pulcro formalismo ha recibido gran atención y ha sido adoptado por muchos de los primeros sistemas
bibliográficos comerciales. Su estrategia de recuperación está basada en un criterio de decisión binario sin ninguna
noción de escala de relevancia de un documento a una consulta, lo cual genera una problemática: básicamente
1
Calvin Northrup Mooers (1919 - 1994) fue un programador informático y documentalista científico estadounidense.
Modelo de Recuperación de Información Fuzzy
2
tenemos que considerar la relevancia de un documento como un aspecto puramente binario. Debido a esto
surgen dos modelos alternativos:
 Modelo Fuzzy.
 Modelo Booleano Extendido.
En el presente artículo se abordará el modelo Fuzzy propuesto por Yasushi Ogawa, Tetsuya Morita y Kiyohiko
Kobayashi. El mismo sienta sus bases en la lógica difusa que se explicará brevemente. El objetivo fundamental de
este documento es presentar el modelo Fuzzy para ello se ha dividido en seis secciones principales, además de esta.
En la segunda sección se realiza una introducción a la lógica difusa, presentando sus conceptos fundamentales. En
las siguientes secciones se aborda el modelo Fuzzy defiendo como se representan los documentos y consultas, así
como la manera de evaluar el grado de relevancia de los documentos ante una consulta. Posteriormente se presenta
un ejemplo práctico del mismo. En la sección seis se muestra una comparación de los modelos Booleano, Booleano
Extendido y el Fuzzy. En la siguiente sección se abordan las principales ventajas y desventajas del modelo Fuzzy con
el objetivo de que el lector pueda realizar su propia valoración del mismo.
2 Introducción a la Lógica Difusa2
La lógica difusa es una clase de lógica multivaluada, y permite manejar verdades parciales, a diferencia de la lógica
binaria clásica donde los valores son falsos o verdaderos sin grado intermedio. En 1965, Zadeh3 propuso la teoría de
conjuntos difusos, la cual es su fundamento matemático. Por medio de la lógica difusa, términos que son
inherentemente ambiguos pero que son útiles para los humanos pueden ahora ser procesados por computadoras en
base a la definición de conjuntos difusos y variables lingüísticas.
La lógica difusa presenta varias ventajas ya que es fácil de entender y muy intuitiva puesto que está basada en
términos lingüísticos. Es tolerante a datos imprecisos y también es una herramienta para expresar conocimiento tanto
de expertos como de sentido común. La lógica difusa también ha sido usada como una herramienta para modelar
emociones en varias aplicaciones porque imita la lógica humana. Los estados emocionales no tienen límites precisos,
y el solapamiento que se presenta en ellos no es modelable usando valores booleanos. Además, es posible
experimentar varias emociones al mismo tiempo. Un individuo puede estar un poco triste y muy enojado al mismo
tiempo, lo cual puede ser fácilmente modelable usando lógica difusa.
2.1 Conjuntos difusos
La necesidad de trabajar con conjuntos difusos surge del hecho que existen conceptos que no tiene límites claros. Un
conjunto difuso se encuentra asociado a una etiqueta lingüística. La función de pertenencia a un conjunto difuso
puede tomar valores entre 0 y 1. Formalmente puede definirse como:
Definición: Un conjunto difuso A en un universo puede definirse como
función de pertenencia y U es el universo.
{
|
} . Donde
Definición: Una función de pertenencia de
un conjunto difuso A sobre un universo de
discurso U es de la forma µA: U → [0,1],
donde a cada elemento de U le corresponde
un valor entre 0 y 1. Este valor, llamado
valor de pertenencia o grado de pertenencia,
representa el grado en el que el elemento de
U pertenece al conjunto difuso A [5].
2
3
Fig. 1 Ejemplo de conjunto difuso.
Fuzzy Logic en inglés.
Lotfi Asker Zadeh (1921- ) Matemático azerbaiyano profesor de la Universidad de Berkeley.
es la
Modelo de Recuperación de Información Fuzzy
3
2.1.1 Operaciones básicas
Al igual que en la lógica clásica, en la lógica difusa existen tres operaciones básicas sobre conjuntos: la unión, la
intersección y el complemento [5].
Unión: Sean µA y µB dos funciones de pertenencia que representan los conjuntos difusos A y B respectivamente en
el universo X, podemos definir la unión mediante la siguiente función de pertenencia (1):
µA µB(x) = Max(µA(x),µB(x))
(1)
Intersección: Sean µA y µB dos funciones de pertenencia que representan los conjuntos borrosos A y B respectivamente en el universo X, podemos definir la intersección mediante la siguiente función de pertenencia (2):
µA∩ µB (x) = Min(µA(x),µB(x)) (2)
Complemento: Sea µA una función de pertenencia que representa el conjunto difuso A en el universo X, podemos
definir el complementario mediante la siguiente función de pertenencia (3):
µCA (x) = 1 - µA(x)
(3)
3 Modelo Fuzzy
El Modelo Booleano es un modelo de recuperación simple basado en la teoría de conjuntos y en el álgebra booleana.
Los documentos se representan mediante términos índice. La relevancia es binaria: un documento es relevante o no,
lo cual representa una dificultad porque no se tiene el grado de relevancia además no considera la relación existente
entre los diferentes términos indexados. El Modelo Fuzzy intenta solucionar estos problemas basándose en la lógica
difusa. De manera general para cada término se define un conjunto difuso donde cada documento tendrá un determinado grado de pertenencia. A continuación se explican los componentes de este modelo.
3.1 Conjunto de documentos (D)
Los documentos se representan de manera similar al modelo booleano a partir de un vector de términos indexados,
donde en la componente i-ésima aparecerá un 1 si el término aparece en el documento, 0 en caso contrario.
3.2 Conjunto de consultas (Q)
En el Modelo Fuzzy al igual que en el Booleano las consultas están compuestas por términos indexados y por los
operadores AND, OR y NOT, por lo cual son expresiones booleanas. Para facilitar el manejo de dicha consulta esta
puede llevarse a Forma Normal Disyuntiva y luego a Forma Normal Disyuntiva Completa respecto a todos los términos indexados del sistema.
Definición: Una fórmula A se denomina un literal, si A es una variable proposicional o la negación de una
variable proposicional. Si un literal es una variable proposicional se denomina literal positivo, en el otro caso se
denomina un literal negativo. [6]
Definición: Una fórmula A se denomina una forma normal disyuntiva (FND) si A es de la forma
cada Ai, 1 ≤ i ≤ n es una conjunción de literales. [6]
Teorema: Para toda fórmula A puede hallarse una formula A' en FND tal que
y
. [6]
La demostración de este teorema es constructiva y consiste en transformar la fórmula A en una FND A' aplicando
repetidamente leyes que preservan la equivalencia lógica de las fórmulas. [6]
Modelo de Recuperación de Información Fuzzy
Por ejemplo, la consulta:
escrita en forma normal disyuntiva como:
4
asumiendo que a, b y c son los términos del sistema, puede ser
(6)
Definición: Una fórmula A se encuentra en Forma Normal Disyuntiva Completa (FNDC) si está en FND y en cada
componente conjuntiva aparecen todas las variables y ninguna variable aparece más de una vez.
Luego de tener una fórmula expresada en forma normal disyuntiva aplicando transformaciones equivalentes esta
puede ser llevada a FNDC. La idea es agregar expresiones de la forma
si en la componente disyuntiva falta
la variable a. La FNDC para la fórmula q (4) quedaría de la siguiente manera:
(7)
La facilidad que nos brinda la FNDC es precisamente que la componente conjuntiva j-ésima (ccj) puede ser
representada como vector con tantas componentes como variables tenga la fórmula y la tendrá un 1 en la posición i
si la variable i aparece positiva y un 0 si aparece negada. La fórmula q (4) nos quedaría:
, en la figura 1 se ilustra gráficamente dicha fórmula.
Fig. 2 Representación de la fórmula q [4].
3.3 Evaluación de una consulta
La función de Ranking (R) evalúa el grado en el que las representaciones de los documentos satisfacen los
requisitos expresados en la consulta y recupera aquellos que son relevantes a la misma. Este modelo utiliza
varios componentes para realizar dicha evaluación basados en la teoría de conjuntos difusos abordada anteriormente.
A continuación se explican estos componentes.
3.3.1 Matriz de correlación
Dentro de las características de modelo Fuzzy tenemos que mantiene las relaciones entre los términos indexados con
el objetivo de ampliar el conjunto de términos indexados de un documento con otros términos que se relacionen con
estos, lo cual hace posible que se puedan recuperar documentos relevantes adicionales [4]. Por ejemplo si en una
consulta aparece el término profesor de recuperarán los documentos que contengan el término maestro.
Para almacenar estas relaciones se utiliza una estructura denominada Matriz de Correlación cuyas filas y columnas
están asociadas a términos indexados y en la posición i,j se almacena la relación que existe entre el término i y el
término j. Para ello se define un factor de correlación normalizado (0 ≤ cij ≤ 1) entre los términos ki y kj, que se
calcula de la siguiente forma (8):
Modelo de Recuperación de Información Fuzzy
5
Donde ni es la cantidad de documentos que contienen al término k i, nj es la cantidad de documentos que contienen al
término kj y nij es la cantidad de documentos que contienen ambos términos [4]. Un ejemplo de matriz de correlación
podría ser:
3.3.2 Definición de los conjuntos difusos
En este modelo se va a definir un conjunto difuso para cada término indexado ki. Luego cada documento tendrá un
grado de pertenencia a cada uno de dichos conjuntos. El grado de pertenencia del documento dj al conjunto difuso
asociado al término ki se calcula de la manera siguiente:
∏
Por lo tanto siempre que exista al menos un término kl del documento dj que esté fuertemente relacionado con ki (o
sea,
1) entonces
y el índice ki es un índice relevante para el documento dj. En el caso de que todos
los índices del documento dj están débilmente relacionados con ki, entonces ki no es un buen índice difuso
para dj (o sea,
).
3.3.3 Función de Ranking (R)
El objetivo de esta función es evaluar la relevancia de un documento dj a una consulta q y se calcula mediante la
siguiente expresión:
∏(
)
donde:
p es la cantidad de componentes conjuntivas de q.
representa el grado de pertenencia dj a la componente conjuntiva i-ésima de q y se calcula de la
siguiente manera:
∏
tal que: n representa el total de términos indexados y
{
(11)
Después de calculada la relevancia de cada documento a la consulta se establece un umbral de relevancia y se
recuperan todos los documentos cuyo grado de relevancia sea mayor que el umbral definido.
3.4 Definición formal del Modelo Fuzzy
D: Vectores binarios (en la componente i-ésima poseerá un 1 si el documento contiene el índice i, 0 en caso
contrario).
Q: Expresión booleana en la que intervienen los índices y los operadores AND, OR y NOT. Finalmente esta
expresión se transforma en una FNDC donde cada componente conjuntiva es un vector binario.
Modelo de Recuperación de Información Fuzzy
6
F: Teoría de Conjuntos Difusos y Álgebra Booleana.
∏
R:
4 Ejemplo
Supongamos que tenemos un Sistema de Recuperación de Información que posee tres términos indexados k 1, k2 y k3,
cuya matriz de correlación es la siguiente:
Se tiene una representación del documento d3 tal que d3= (0,1,1). Y se desea calcular el grado de relevancia de d 3 a
la siguiente consulta
.
Solución
Llevemos q a FNDC
Finalmente nos quedaría
Calculemos los grados de pertinencia de d3 a los conjuntos difusos definidos por cada índice.
(
)
(
)
(
)
(
)
(
)
(
)
Ya estamos en condiciones de calcular
(
)(
)
5 Ventajas y desventajas
A continuación se presentan un grupo de ventajas y desventajas de este modelo.
Ventajas
-
Es capaz de recuperar documentos que no incluyan exactamente los mismos términos de la consulta.
A diferencia del modelo Booleano tradicional define un ranking entre los documentos recuperados mediante
la función de pertenencia explicada anteriormente.
Tiene en cuenta la relación existente entre los índices, almacenada en la matriz de correlación.
Modelo de Recuperación de Información Fuzzy
7
Desventajas
-
Su implementación puede ser un poco más costosa de la de otros modelos, entre otra cosas por la gran
cantidad de cálculos aritméticos que deben realizarse para evaluar una consulta.
No tiene en cuenta la frecuencia de ocurrencias de un término en un documento. O sea la función de ranking
no prioriza documentos que tengan 100 veces la palabra casa, sobre documentos que contengan una sola
ocurrencia de esta palabra.
6 Comparación con otros modelos
En el siguiente epígrafe se presenta un cuadro comparativo entre los modelos Booleano, Booleano Extendido y
Fyzzy.
Tabla 1. Comparación entre los modelos.
Criterio
Modelo Booleano
Booleano Extendido
Fuzzy
Documentos (D)
Vectores de pesos binarios.
Vectores de pesos no binarios.
Vectores de pesos binarios
Consultas (Q)
Expresiones booleanas.
Expresiones booleanas.
Expresiones booleanas.
Framework (F)
Teoría de Conjuntos y
Álgebra de Boole.
Algebra Booleana y operaciones
en espacios t-dimensional.
Teoría de Conjuntos
difusos y Álgebra de
Boole.
Grado de
Relevancia
{0,1}
[0,1] dependiendo de las
operaciones booleanas.
[0,1] definida por la
función de membresía.
Pesos
Binarios.
No binaries.
Binarios.
Ranking entre
documentos
No.
Sí.
Sí.
Macheo parcial
No.
Sí.
Sí.
No.
Sí.
Dependencia entre No.
términos
7 Conclusiones
El modelo Fuzzy resuelve algunos de los inconvenientes que posee el modelo Booleano, aunque es importante
destacar que al no darle importancia a la cantidad de ocurrencias de un término dentro de un documento puede
perderse eficacia en el resultado de la evaluación de una consulta. Otra característica importante es que al mantener
la interrelación entre los términos indexados, en sistemas donde se almacene un gran volumen de información
pudiera resultar costoso la construcción de la matriz de correlación. A pesar de estos problemas la idea del modelo
Fuzzy es bastante interesante y aunque no es muy popular puede servir como base a otros modelos.
Modelo de Recuperación de Información Fuzzy
8
8 Referencias
1. Sitio: Recuperación de Informacion. Diponible en: http://recuperaciondinformacion.blogspot.com/2010/08/algunos-apuntes-dehistoria-en-la.html. [Consultado 6 de septiembre 2012]
2. Salvador Oliván, José Antonio. Arquero Avilés, Rosario. Una aproximación al concepto de Recuperación de Información en el
marco de la ciencia de la documentación. México: Investigación Bibliotecológica, 2006. Vol. 20, Nº 41, pp. 13-41Disponible
en: http://eprints.rclis.org/archive/00010615/01/IBI002004101.pdf
3. Oliva Santos, R. Introducción a los Sistemas de Recuperación de Información, 2012-2013.
4. Baeza-Yates, R. y Ribeiro-Neto, B., Modern Information Retrieval I, Octubre, 1998.
5.
Sitio:
eMathTeacher:
Método
de
Mamdani
de
Inferencia
Borrosa.
Disponible
en:
http://www.dma.fi.upm.es/research/FundMatSoftComputing/fuzzyinf/main.htm . [Consultado 6 de septiembre 2012]
6. García Garrido, L. Introducción a la Teoría de Conjuntos y a la Lógica. Cuba: 2002.