Estudio de la clasificación de textos usando
Transcripción
Estudio de la clasificación de textos usando
Estudio de la clasificación de textos usando aprendizaje con múltiples instancias Rafael Moral, Amelia Zafra y Sebastián Ventura Resumen— El aumento exponencial de documentos que se produce dı́a a dı́a ha aumentado la importancia de la tarea de clasificación de textos de una forma automática. En este contexto, el aprendizaje con instancias múltiples, que extiende al clásico de instancias simples, se presenta como una alternativa que nos permite una mayor flexibilidad en la representación de este problema. En este trabajo se realiza un estudio de las representaciones usadas para realizar clasificación de textos en aprendizaje con múltiples instancias con la finalidad de determinar si existen diferencias entre ellas a la hora de resolver el problema. Además, se realiza una comparativa con la resolución de problema utilizando el aprendizaje tradicional con instancias simples para mostrar si realmente la representación con múltiples instancias resulta más adecuada que utilizar la representación clásica. Resultados experimentales utilizando un conjunto significativo de algoritmos ponen de manifiesto la ventaja de utilizar la representación con múltiples instancias. Palabras clave— Clasificación de textos, aprendizaje con instancias múltiples, aprendizaje con instancias simples I. Introducción En la actualidad, existe un aumento extraordinario de información referida a cualquier disciplina humana. Gran parte de esta información no viene estructurada para poder realizar una rápida automatización. Dicha información se puede encontrar tanto en repositorios públicos como privados. A causa de esta gran diversidad y cantidad, se hace necesario el uso de herramientas que automaticen el proceso de clasificación ayudando a satisfacer las necesidades de los usuarios en cuanto a la información que buscan, encontrando ésta en un tiempo adecuado. Para la mayorı́a de las tareas de categorización se utiliza el modelo vectorial, definido por Salton et al. [1]. En este modelo, el documento va a ser representado por un vector, donde cada elemento de éste va a representar a una palabra que venga en en el documento. Al conjunto de estas palabras que van a conformar el vector se denominará bolsa de palabras. Se pueden aplicar distintos criterios para representar esta bolsa de palabras: de forma binaria (si la palabra aparece o no en el documento), con la frecuencia en la que aparece en el documento o por técnicas de ponderación de frecuencia de término o TFIDF [2]. La resolución de este problema es un área de investigación que desde los años ochenta ha sufrido un gran auge debido a que la información de la que Departamento de Informática y co Universidad de Córdoba 14071 {i62movir,azafra,sventura}@uco.es Análisis NumériCórdoba. E-mail: se dispone es cada vez mayor. El problema ha sido resuelto desde una perspectiva de aprendizaje tradicional basado en instancias simples utilizando clasificadores estadı́sticos [3], como Naı̈ve Bayes; basados en distancia como el kNN [4], y redes neuronales [5] entre otros. En el trabajo de A. Mahirevs y Ashutosh Tiwari [6], se puede encontrar una revisión de los métodos más relevantes aplicados a la clasificación de textos. En todos los trabajos se coincide en que la resolución de este problema es costosa debido a que los documentos son extensos y están formados por muchas partes. En este contexto el aprendizaje con múltiples instancias (Multiple Instance Learning, MIL) propuesto recientemente por Dietterich et al. [7], se presenta como una alternativa más flexible para la representación de los documentos. De forma general, con este aprendizaje, el documento es divido en diferentes partes y el problema consiste en detectar la presencia de un determinado contenido en algunas de las partes del documento, en lugar de usar el documento completo. Aunque se encuentran muchas referencias en el aprendizaje tradicional sobre clasificación de textos, realmente no es un tema muy investigado en MIL. En este artı́culo se pretende profundizar en este tema, para poder determinar la relevancia de este aprendizaje en la resolución de la clasificación de textos. Para ello, en primer lugar, se va a analizar los diferentes enfoques para representar documentos en MIL propuestos hasta la fecha, con el fin de estudiar su efectividad en la resolución de estos problemas y analizar cuál resulta más beneficioso. Para ello un conjunto representativo de algoritmos intentarán resolver el problema y se analizarán los resultados obtenidos. Posteriormente, una vez seleccionada la mejor opción de representación en MIL, se evaluará el rendimiento de los algoritmos para resolver el problema tanto desde un punto de vista tradicional como desde un punto de vista de aprendizaje con múltiples instancias. De este modo, se llevará a cabo un estudio empı́rico que nos demuestre si realmente los métodos de aprendizaje con múltiples instancias mejoran los resultados en la clasificación de textos comparado con su resolución en el aprendizaje tradicional. En ámbos estudios se emplean una gran variedad de algoritmos ampliamente utilizados en la resolución de problemas de MIL. Los resultados experimentales utilizando test estadı́sticos para sus análisis nos muestran, por un lado, la opción más idónea para representar este problema, y por otro, que los métodos MIL mejoran a los clásicos con la represen- tación tradicional en la resolución de este problema obteniendo resultados de clasificación más precisos. El resto del artı́culo se organiza de la siguiente forma. En la Sección 2 se introduce al aprendizaje multi-instancia y su utilización en clasificación de textos. En la Sección 3 se presentan los dos tipos de representación utilizados en MIL. En la Sección 4 se exponen y analizan los resultados de la experimentación. La Sección 5 muestra las conclusiones. II. Trabajo previo en aprendizaje con múltiples instancias El aprendizaje con Múltiples Instancias, definido por Dietterich et al. [7], constituye una variante del aprendizaje supervisado tradicional que se manifiesta en aplicaciones complejas del aprendizaje automático, en las que el sistema de aprendizaje dispone de un conocimiento incompleto sobre cada uno de los patrones de entrenamiento. Los conjuntos de datos están formados por una serie de patrones denominados bolsas, cada una de las cuales tiene asociada una determinada categorı́a. Estas bolsas están constituidas por una serie de instancias individuales, para las que no se conoce la clase a la que pertenecen. En la clasificación binaria, el objetivo del proceso de clasificación es la organización de las bolsas en dos conjuntos. De acuerdo a la hipótesis de Dietterich et al. [7] se determina que un ejemplo es positivo si contiene al menos una instancia del concepto que se quiere aprender, y se considera negativa en caso de no contenga ninguna instancia sobre dicho concepto. La primera solución a un problema de aprendizaje con múltiples instancias fue propuesta por Dietterich et al. [7], en un estudio que trataba de determinar la relación existente entre la estructura de una serie de sustancias quı́micas y su actividad farmacológica. Su aplicación sobre una serie de conjuntos de datos reales y sintéticos demostró que el algoritmo propuesto, que consideraba las caracterı́sticas particulares de los problemas con múltiples instancias, resultaba más adecuado que los algoritmos de aprendizaje tradicionales para la resolución de los mismos. Un segundo algoritmo de gran extensión para la resolución de problemas de aprendizaje con múltiples instancias es el denominado Densidad de Diversidad (DD, Diverse Density) [8]. A partir de estos trabajos, son muchos los estudios que se pueden encontrar con propuestas de nuevos modelos para este aprendizaje, Wang y Zucker realizaron la adaptación del algoritmo de los k vecinos más cercanos (k-NN, k Nearest Neighbour ) a problemas de aprendizaje con múltiples instancias [9]. Posteriormente, Chevaleyre y Zucker modificaron el algoritmo ID3, basado en árboles de decisión, y el algoritmo RIPPER, centrado en la inducción de reglas, con el fin de considerar las caracterı́sticas propias de los problemas con múltiples instancias [10]. Otras soluciones propuestas para la resolución de problemas de aprendizaje con múltiples instancias consistieron en la utiliza- ción de máquinas de soporte vectorial [11], algoritmos genéticos [12], redes neuronales [13][14] y ensambles multi-instancia [15]. La gran cantidad de propuestas en esta área ha venido sobrevenida por el hecho de que la representación de determinadas aplicaciones en MIL han demostrado que ofrecen mejores resultados debido a la flexibilidad que introduce en su representación. Ası́, la aplicación de los planteamientos propios del aprendizaje con múltiples instancias se ha realizado en numerosos ámbitos de conocimiento, entre los que destacan: predicción de la actividad de fármacos [7], recuperación y clasificación de imágenes basadas en contenido [9], categorización de textos [11] recomendación de páginas web ı́ndice [16] y predicción del rendimiento de los estudiantes [17]. Centrándonos en las tareas de clasificación de textos, se han realizado pocos estudios con MIL. Stuart Andrews et al. [11] generan un conjunto de datos para realizar clasificación de texto mediante aprendizaje MIL. A partir de un conjunto de datos llamado OHSUMED, dividieron los documentos en pasajes mediante ventanas deslizantes superpuestas. Resultados obtenidos muestran buenos resultados a la hora de clasificar estos conjuntos de datos. Recientemente encontramos los estudios de M-L. Zhang y Z-H.Zhou [18], quienes proponen un algoritmo para realizar clasificación multi-instancia y multi-etiqueta (MI-ML) aplicándolo a clasificación de imágenes y de textos; Z-H. Zhou et al. [19] proponen la utilización de unos algoritmos para problemas MIL en los que las bolsas no tienen que ser independientes entre ellas, y no están distribuidas de manera idéntica, utilizando también la categorización de textos para realizar las pruebas; y H. Wei y Y. Wang [20] realizan clasificación de textos mediante el algoritmo KNN, considerando que cada documento se representa con una bolsa y cada una de las instancias que componen la bolsa representan una frase del documento. Estos estudios ponen de manifiesto que por las caracterı́sticas de alta-dimensionalidad y escasa representación, las técnicas MIL son un punto interesante para estudiar la categorización de textos. III. Representación de los documentos en MIL Dentro del aprendizaje con múltiples instancias, son dos las representaciones de documentos que se pueden encontrar. Primero describiremos el modelo de Salton et al. [1], que es usado en ambas representaciones. Después, especificaremos las dos representaciones usadas en MIL. A. Modelo Vectorial de Salton Para la mayorı́a de las tareas de categorización se utiliza el modelo vectorial, definido por Salton et al. [1]. En este modelo, un documento puede considerarse como un vector D = (c1 , c2 , c3 ...cj ) donde c1 es un valor numérico que expresa en qué grado el do- cumento D posee la palabra 1, c2 lo mismo para la palabra 2, y ası́ sucesivamente. El concepto bolsa de palabras (Bag-of-Words) o diccionario, denominado caracterı́stica de forma generalizada en otros tipos de problemas, suele concretarse en la ocurrencia de determinadas palabras en el documento, aunque nada impide tomar en consideración otros factores. En el caso más simple, pueden aplicarse valores binarios exclusivamente; de forma que si en el documento D aparece la palabra 1, el valor de c1 serı́a 1 y en caso contrario, 0. Como, naturalmente, una palabra puede aparecer más de una vez en el mismo documento, y además, unas palabras pueden considerarse como más significativas que otras, el valor numérico de cada uno de los componentes del vector obedece normalmente a cálculos algo más sofisticados que tienen en cuenta más factores, además de la simple ocurrencia o no de un término, como pueden ser el caso de la técnica de ponderación de frecuencia de termino o TFIDF [2]. Fig. 1. Representación del documento (opción 1) B. Reprentación del documento (opción 1) En esta representación, cada documento corresponde a un conjunto aleatorio de párrafos de distintos documentos. El documento conforma cada patrón del conjunto de datos, que en MIL, se conoce habitualmente como bolsa, y cada bolsa está compuesta por varias instancias que representan cada uno de los párrafos de textos que se han considerado. Los diferentes párrafos que se consideran se corresponden, no con el concepto de párrafo que se tiene comúnmente, sino con fragmentos obtenidos de cada documento de acuerdo al uso de una ventana deslizante que delimita el texto que se considera en cada instancia [19]. Las bolsas positivas tienen un porcentaje de instancias/fragmentos de textos que pertenezcan a la categorı́a que representan, mientras que el resto de instancias que conforman cada ejemplo se escogen de fragmentos de textos que pertenecen a otra categorı́a. Concretamente, el conjunto de datos utilizados en la experimentación es el proporcionado por Z-H. Zhou et al. [19]. La Figura 1 muestra la representación utilizada. Los datos son obtenidos de la colección 20-Newsgroups, una colección ampliamente utilizada en clasificación de textos, utilizando 20 grupos de noticias populares diferentes, perteneciendo cada grupo de noticias a una categorı́a distinta. Para trabajar con clasificación binaria (clase positiva y negativa), se trabaja con un total de 20 conjuntos de datos diferentes, cada uno de ellos representa una de las categorı́as como positiva y el resto de ejemplos que no pertenecen a dicha categorı́a como negativa. Especı́ficamente, cada conjunto se compone de 50 bolsas/documentos positivas y 50 bolsas/documentos negativas. Cada bolsa positiva contiene un 3 % de instancias, escogidas aleatoriamente, que pertenecen a fragmentos de texto de ese grupo de noticias; y en el caso de las bolsas negativas están escogidas aleato- Fig. 2. Representación del documento (opción 2) ria y uniformemente entre el resto de categorı́as. Se utiliza la representación TFIDF [2]. La información sobre 20-Newsgroups se muestra en la Tabla I. C. Reprentación del documento (opción 2) En esta representación también cada uno de los documentos que se utilizan se representan por una bolsa. De forma similar, un documento es dividido en párrafos, los cuales son delimitados mediante ventanas deslizantes de tamaño fijo [18]. Cada fragmento es traducido a un vector de bolsas de palabras mediante el modelo vectorial definido por Salton et al. [1], definiéndose ası́ cada una de las instancias de la bolsa. Existirá una bolsa por cada documento, y cada bolsa tendrá tantas instancias como fragmentos o divisiones del documento se hayan realizado. Esta representación puede verse en la Figura 2. El conjunto de datos utilizado por Zhang y Zhou [18] son los datos que se han empleado para la experimentación con este tipo de representación. Los datos son obtenidos de la colección Reuters-21578, una base de datos ampliamente estudiada en este tipo de problemas. El conjunto de documentos utilizados por Zhang y Zhou [18] se divide en 7 categorı́as y está compuesto por 2000 documentos donde el 15 % pertenece a más de una clase, siendo el promedio global de clases por documento del 1,15 %. Cada documento se representa como una bolsa de instancias usando la técnica de ventana deslizante [11], donde cada instancia corresponde a un segmento de texto de una ventana deslizante de tamaño 50. El es- TABLA I Información sobre el conjunto de datos Reuters y 20-Newsgroups Reuters N o de conjunto de datos N o Pos Neg de bolsas Bolsa de palabras Instancias por Bolsa N o medio de instancias Esquema de pesado Min Max 20-Newsgroups 7 20 50 50 50 50 243 200 2 18 8 84 3.96 40.07 Frecuencia TFIDF quema de pesado utilizado se basa en la frecuencia de términos [21]. Además, con la finalidad de reducir dimensionalidad, el 2 % del conjunto de palabras con mayor frecuencia en los documentos son eliminadas, quedando ası́ cada instancia representada por un vector con una bolsa de palabras de 243 elementos. Con la finalidad de compatibilizar lo máximo posible ambos tipos de representaciones, se ha realizado un preprocesado del conjunto de datos de Reuters con respecto a la configuración propuesta por Zhang y Zhou [18]. Para ello, se han eliminado todas las bolsas/documentos que pertenezcan a más de una clase, trabajando ası́ con una clasificación que utiliza solamente una etiqueta. A partir de las bolsas que quedan disponible, se dispone de 7 categorı́as diferentes de textos. De forma similar al conjunto de datos 20-Newsgroups, se trabaja con clasificación binaria, diseñando ası́ 7 conjuntos de datos diferentes. En cada conjunto de datos, una de las categorı́as se considera positiva y el resto negativa. A su vez, cada conjunto de datos está formado por 50 bolsas positivas y 50 bolsas negativas. Las 50 bolsas positivas se han escogido aleatoriamente entre el conjunto de bolsas pertenecientes a la categorı́a considerada en ese conjunto de datos, mientras que las bolsas negativas se han escogido de forma aleatoria y uniforme entre el resto de clases. El resumen de como quedan los conjuntos de datos para la experimentación se muestra en la Tabla I. IV. Experimentación La experimentación lleva a cabo dos estudios. El primero de ellos analiza los resultados obtenidos con distintos algoritmos MIL utilizando las dos representaciones que hemos descrito en la Sección III y tiene como finalidad estudiar si alguna de las representaciones resulta más adecuada para este problema. El segundo estudio realiza una comparativa con la representación multi-instancia que ha resultado más conveniente del estudio anterior y la representación con instancias simples. Este estudio nos permite determinar si realmente es beneficioso trabajar con este tipo de aprendizaje para resolver problemas de clasificación de textos. A. Comparativa de las representaciones con múltiples instancias Para realizar la comparativa entre los dos tipos de representaciones, se han escogido una serie de algoritmos MIL que se encuentran en el software WEKA[22]. En el estudio experimental se han considerado 15 algoritmos, de los cuales encontramos métodos basados en diversidad de la densidad: MIDD [8], MIEMDD [23] y MDD [8]; métodos basados en regresión logı́stica: MILR [24]; métodos basados en máquina de soporte vectorial: MISMO [25]; métodos basados en distancias: CitationKNN [9] y MIOptimalBall [26]; métodos basados en reglas: PART, Bagging con PART y AddaBoost con PART usando el enfoque MIWrapper [26] y el MISimple [26] (estos enfoques son diferentes adaptaciones de los métodos clásicos para trabajar con MIL); métodos basados en árboles de decisión: MIBoost [27] y métodos basados en probabilidades: Naı̈ve Bayes [26]. Los conjuntos de datos que se emplean son las dos bases de datos que se han comentado en la sección III.B (20-Newsgroups, formado por 20 conjunto de datos) y la sección III.C (Reuters, formado por 7 conjuntos de datos). En la ejecución de los algoritmos se va a utilizar validación cruzada 10-Fold empleando la configuración que los autores aconsejan por defecto de cada algoritmo. Los resultados obtenidos en los distintos algoritmos respecto a los datos de Reuters están en la Tabla II. Se puede observar como la mayorı́a de los algoritmos obtienen una buena exactitud exceptuando los algoritmos basados en diversidad de densidad (MIDD, MIEMDD y MDD) y CitationKNN. En estos casos, si evaluamos los valores de sensibilidad y especificidad que obtienen podemos aprenciar que estos métodos tienden a obtener una sensibilidad muy baja siendo ésta la causa de los malos valores de exactitud que presentan, mientras que en el resto de métodos se consigue un equilibrio entre ambas métricas. Se ha aplicado el test de Friedman [28] para determinar cuáles son los algoritmos que mejor resuelven este problema y si existen diferencias significativas entre ellos. El test de Friedman (distribuı́do con una Chi-cuadrado con 14 grados de libertad) nos da un resultado de 75.8929 para la exactitud y un pvalue de 0. De este modo considerando una confianza del 99 %, se rechaza la hipotesis nula y se determina que existen diferencias significativas entre los diferentes algoritmos para resolver el problema. En la Tabla II junto con los valores de exactitud se muestran los ranking que tiene cada algoritmo de acuerdo a la aplicación de este test. Evaluando los ranking con respecto a la métrica de exactitud podemos determinar, a priori, que el algoritmo que obtiene un ranking más bajo es el que obtiene mejores resultados en los diferentes conjuntos de datos. Se puede ver que los 2 algoritmos que tienen el ranking más bajo, y por lo tanto ofrecen mejores resultados, son DecisionStump (MIBoost) y AdaBoost & PART (MISimple). TABLA II Resultados de exactidud para el conjunto de datos Reuters Algoritmos Cat1 Cat2 Cat3 Cat4 Cat5 Cat6 Cat7 Ranking MIDD ↓ 0.500 0.500 0.500 0.500 0.550 0.500 0.500 14.000 MIEMDD ↓ 0.760 0.620 0.540 0.620 0.630 0.670 0.720 12.000 MDD ↓ 0.500 0.500 0.500 0.500 0.560 0.500 0.500 13.857 MILR 0.940 0.900 0.830 0.830 0.830 0.840 0.920 5.357 MIOptimalBall 0.830 0.880 0.820 0.870 0.840 0.870 0.860 7.571 CitationKNN ↓ 0.500 0.500 0.500 0.500 0.500 0.500 0.500 14.143 DecisionStump1 0.900 0.910 0.840 0.990 0.870 0.890 0.890 3.143 0.870 0.810 0.860 0.730 0.790 0.730 0.820 9.286 0.920 0.910 0.860 0.980 0.860 0.900 0.860 3.143 0.870 0.780 0.880 0.980 0.820 0.850 0.870 6.286 0.820 0.880 0.850 0.950 0.850 0.840 0.910 5.786 0.890 0.900 0.850 0.960 0.870 0.890 0.890 3.643 0.940 0.880 0.840 0.920 0.850 0.880 0.880 4.923 0.910 0.850 0.820 0.820 0.810 0.830 0.830 8.714 0.880 0.860 0.840 0.790 0.800 0.830 1 MIBoost 2 MISMO 0.880 8.143 MIWrapper 4 MISimple RBF Kernel 2 ↓ AdaBoost & PART PART 3 AdaBoost & PART Bagging & PART PART SMO 3 4 4 4 4 Naı̈ve Bayes 4 3 TABLA III Resultados de exactitud para el conjunto de datos 20-Newsgroups (Categorı́as 1-10) Algoritmos Cat1 Cat2 Cat3 Cat4 Cat5 Cat6 Cat7 Cat8 Cat9 Cat10 MIDD 0.490 0.580 0.520 0.480 0.590 0.560 0.430 0.560 0.430 0.470 MIEMDD 0.520 0.530 0.620 0.520 0.500 0.370 0.500 0.430 0.480 0.520 MDD 0.500 0.470 0.390 0.440 0.400 0.360 0.500 0.400 0.430 0.460 MILR 0.550 0.550 0.500 0.520 0.470 0.510 0.520 0.430 0.500 0.590 MIOptimalBall 0.560 0.500 0.370 0.650 0.370 0.650 0.480 0.500 0.660 0.480 CitationKNN 0.510 0.500 0.500 0.500 0.440 0.490 0.440 0.510 0.500 0.530 DecisionStump1 0.490 0.490 0.740 0.550 0.480 0.570 0.510 0.510 0.630 0.670 RBF Kernel2 0.690 0.600 0.640 0.620 0.640 0.670 0.640 0.710 0.690 0.780 AdaBoost & PART3 0.670 0.560 0.550 0.580 0.640 0.730 0.600 0.580 0.820 0.680 PART3 0.580 0.470 0.660 0.470 0.680 0.670 0.550 0.660 0.760 0.630 AdaBoost & PART4 0.420 0.470 0.520 0.520 0.510 0.530 0.460 0.450 0.570 0.600 Bagging & PART4 0.550 0.530 0.500 0.490 0.520 0.550 0.460 0.540 0.670 0.630 PART4 0.560 0.450 0.510 0.540 0.500 0.510 0.450 0.560 0.530 0.550 SMO4 0.500 0.510 0.500 0.510 0.500 0.510 0.500 0.500 0.500 0.500 Naı̈ve Bayes4 0.490 0.490 0.500 0.530 0.500 0.520 0.510 0.500 1 MIBoost 2 MISMO Para estudiar entre qué algoritmos existen diferencias significativas en sus resultados se va a aplicar el contraste de Holm [28] teniéndose en cuenta que se escoge como algoritmo de control el que menor ranking ha obtenido, que en este caso es AdaBoost & PART (MISimple). En la Tabla II se puede observar que aquellos algoritmos que son considerados peores propuestas aparecen con un sı́mbolo ↓ junto a su nombre, siendo las peores propuestas los algoritmos de diverse density (MDD, MIDD, MIEMDD) y el basado en distancia (CitationKNN). En el caso del conjunto de datos de 20-Newsgroups se observa que los resultados de exactitud son relativamente bajos en todos los métodos (ver Tabla III y Tabla IV). Casi todos los algoritmos que se han utilizado rondan sólo el 50 % de exactitud respecto a las bolsas clasificadas. Existiendo una tendencia 0.530 0.530 3 MIWrapper 4 MISimple general a obtener una mejor especifidad que sensibilidad. Los únicos algoritmos que han pasado la barrera del 60 % han sido el basado en el método de máquina de soporte vectorial, MISMO, y el método AdaBoost & PART(MISimple) que siguiendo la tendencia de la mayorı́a, obtienen una mayor especifidad que sensibilidad. Estos hechos se han contrastado mediante el test de Friedman [28] (distribuı́do con una chi-cuadrado con 14 grados de libertad), que nos da como resultado de exactitud 129.83 y un pvalue de 0.0. Por tanto, con una confianza del 99 % se rechaza la hipótesis nula y también se determina que existen diferencias significativas entre los resultados de los diferentes algoritmos. En la Tabla IV se muestra también el ranking de los algoritmos junto con los valores de exactitud. De igual forma, se aplica un contraste a posteriori, Holm[28], para ob- TABLA IV Resultados de exactitud para el conjunto de datos 20-Newsgroups (Categorı́as 10-20) Algoritmos Cat11 Cat12 Cat13 Cat14 Cat15 Cat16 Cat17 Cat18 Cat19 Cat20 MIDD ↓ 0.500 0.450 0.500 0.450 0.490 0.530 0.530 0.520 0.420 0.590 Ranking 9.425 MIEMDD ↓ 0.470 0.450 0.430 0.400 0.450 0.500 0.560 0.470 0.490 0.540 10.325 MDD ↓ 0.480 0.490 0.450 0.460 0.320 0.420 0.450 0.570 0.500 0.530 12.350 MILR ↓ 0.470 0.570 0.470 0.420 0.510 0.430 0.430 0.490 0.430 0.530 10.125 MIOptimalBall ↓ 0.380 0.510 0.360 0.560 0.460 0.470 0.450 0.470 0.430 0.400 10.575 CitationKNN ↓ 0.460 0.530 0.530 0.510 0.510 0.600 0.530 0.560 0.480 0.520 9.525 DecisionStump1 ↓ 0.640 0.630 0.530 0.670 0.700 0.540 0.580 0.760 0.640 0.520 5.350 RBF Kernel2 0.710 0.640 0.570 0.600 0.730 0.600 0.610 0.720 0.630 0.650 2.150 AdaBoost&PART3 0.810 0.750 0.500 0.590 0.700 0.650 0.710 0.800 0.640 0.570 2.525 PART3 0.730 0.720 0.510 0.580 0.650 0.620 0.670 0.810 0.620 0.470 4.425 AdaBoost&PART4 ↓ 0.460 0.590 0.340 0.550 0.520 0.500 0.490 0.640 0.500 0.570 8.925 Bagging&PART4 ↓ 0.540 0.560 0.480 0.530 0.520 0.570 0.470 0.640 0.510 0.590 6.975 PART4 ↓ 0.530 0.520 0.480 0.580 0.490 0.460 0.400 0.670 0.470 0.600 8.675 0.500 0.510 9.575 0.510 1 MIBoost 2 MISMO 0.510 9.075 MIWrapper 4 MISimple SMO4 ↓ 0.500 0.500 0.530 0.510 0.500 0.510 0.500 0.500 Naı̈ve Bayes4 ↓ 0.490 0.470 0.570 0.470 0.510 0.500 0.500 0.500 servar las diferencias entre los distintos algoritmos. Todos aquellos algoritmos que aparecen en las tablas anteriores con un sı́mbolo (↓) junto a su nombre, indican que son consideradas peores propuesta que el algoritmo de control, que en este caso es RBF kernel (MISMO), que es el que tienen un ranking más bajo. Como coincidencia en ambas representaciones, AdaBoost & PART(MISimple), aparece como una de las mejores propuestas. El resto de algoritmos en este caso son considerados peores propuestas. Para comparar ambas representaciones, se va a evaluar una media de los resultados de exactitud que cada algoritmo obtiene en cada una de las representaciones y se aplicará un test de Wilcoxon [28] para ver si existen diferencias en los resultados que obtienen en cada representación. En la Tabla V se muestra un resumen de los resultados medios obtenidos por cada algoritmo en cada una de las representaciones. Podemos ver que con la representación usada por el conjunto de datos Reuters todos los algoritmos superan ampliamente los valores que obtienen cuando intentan resolver el conjunto de datos 20-Newsgroups, teniendo ambos conjuntos de datos una configuración muy similar y variando la representación de los documento. La existencia de estas diferencias las podemos comprobar mediante el test de rangos de signo de Wilcoxon [28], con el que evaluamos la comparación entre cada par de representaciones. Aplicando dicho test sobre los resultados comentados, se obtiene un pvalue = 1,831E −4 . Por ello, con una confianza del 99 %, se rechaza la hipótesis nula, confirmándose que existen diferencias entre ambas representaciones y observando que Reuters es mejor representación debido a que su suma de rangos que es 118 es mayor que la de Newsgroup que es 2, mostrando ası́ que los algoritmos obtienen valores de exactitud más altos con la representación considerada como Opción 2. 3 TABLA V Resultados generales de exactitud de Reuters y 20-Newsgroups 20-Newsgroups1 Reuters2 MIDD 0.505 0.507 MIEMDD 0.490 0.651 MDD 0.451 0.509 MILR 0.495 0.870 MIOptimalBall 0.486 0.853 CitationKNN 0.508 0.500 DecisionStump (MIBoost) 0.593 0.899 RBF Kernel (MISMO) 0.657 0.801 Adaboost & PART (MISimple) 0.657 0.899 PART (MISimple) 0.626 0.864 AdaBoost & PART (MIWrapper) 0.511 0.871 Bagging & PART (MIWrapper) 0.543 0.893 PART (MIWrapper) 0.518 0.884 SMO (MIWrapper) 0.504 0.839 Naı̈ve Bayes (MIWrapper) 0.507 0.840 1 Media de los resultados obtenidos en los 20 conjuntos de datos 2 Media de los resultados obtenidos en los 7 conjuntos de datos B. Comparativa entre representación con múltiples instancias e instancias simples En esta sección, se va a realizar un estudio que nos permita comparar la representación de textos utilizando instancias simples y múltiples. Para la representación con instancias múltiples, se va a emplear la opción 2 especificada en la sección III.C, que es la que ha proporcionado mejores resultados en la com- TABLA VI Resultados de exactitud para el conjunto de datos Reuters (Instancias simples) Algoritmos Cat1 Cat2 Cat3 Cat4 Cat5 Cat6 Cat7 AdaBoost 0.910 0.980 0.780 0.950 0.900 0.830 0.850 DecisionStump 0.890 1.000 0.610 0.820 0.800 0.860 0.890 Logistic 0.830 0.940 0.900 0.850 0.760 0.740 0.840 SMO Ibk 0.910 0.810 0.940 0.920 0.860 0.790 0.820 0.700 0.740 0.800 0.710 0.720 0.800 0.640 PART 0.930 0.980 0.750 0.950 0.830 0.800 0.850 NaiveBayes 0.930 0.910 0.780 0.770 0.730 0.710 0.770 parativa entre las dos representaciones analizadas. Para la representación con instancias simples se ha realizado un preprocesado de los datos que simula la información con la que se trabajarı́a si se hubiese analizado la información con esta representación y que está especificada en la sección IV.B.1. En la sección IV.B.2. se analizarán los resultados obtenidos por ambas representaciones para determinar si existen diferencias en los resultados obtenidos por los algoritmos. B.1 Preprocesado a Instancias Simples Para realizar el estudio entre la representación de múltiples instancias e instancias simples, se tiene que traducir los datos del conjunto de datos Reuters que utilizaban una representación con instancias múltiples a instancias simples. Siguiendo la representación de Reuters en MIL, cada bolsa representa un documento completo formado por un conjunto de instancias. Cada instancia representa un párrafo del documento y está compuesto por la frecuencia de las palabras en ese párrafo. Para traducir cada documento de esta representación a la la representación con instancias simples, cada documento tiene que ser representado por una instancia simple. Para ello, se genera una única instancia por documento que está compuesta por la suma de las frecuencias de las palabras considerando todos los párrafos en ese documento. De este modo, cada instancia representarı́a la frecuencia de las palabra en el documento completo. B.2 Análisis de la comparativa Para realizar este estudio experimental se han considerado 7 algoritmos de clasificación clásicos en el aprendizaje con instancias simples, que considera métodos de regresión logı́stica: Logistic [29]; basados en distancias: IBk [30]; métodos basados en árboles de decisión: DecisionStump [22]; basados en reglas: PART [31]; ensambles: AdaBoost&PART [32]; máquina de soporte vectorial: SMO [33][34] y métodos probabilı́sticos: Naı̈ve Bayes [35]. En MIL, de los 15 algoritmos ejecutados y mostrados en el estudio experimental de la sección IV.A, se selecciona para la comparativa los que tienen su contraparte con respecto a los utilizados en instancia simples. Es- tos serı́an los métodos: AdaBoost&PART (MISimple), DecisionStump (MIBoost), Regression Logistic (MILR), SMO (MIWrapper), MIOptimalBall (based on distance), PART (MIWrapper) y Naive Bayes (MIWrapper). La Tabla VI muestra los resultados de exactitud obtenidos por los algoritmos con aprendizaje con instancias simples. Para comparar ambas representaciones, se va a evaluar le medida de exactitud lograda por los métodos en cada una de las representaciones, para el caso de MIL se consideran los resultados obtenidos por los algoritmos especificados al principio de esta sección (que son los similares en ambas representaciones) y cuyos resultados se mostraron en la Tabla II. A simple vista, se puede apreciar que los métodos de MIL consiguen precisiones más altas que los de instancia simple. Aplicando el test de los rangos con signo Wilcoxon [28] obtenemos un pvalue = 0,0529, determinando con una confianza del 90 % que se rechaza la hipótesis nula y por tanto se determina que existen diferencias entre la representación multi-instancia y la representación tradicional. Además, los resultados nos dan como mejor opción la representación multi-instancia al poseer un mayor valor de suma de rangos. Concretamente, obtiene un valor de 844 frente a los 381 que obtienen los métodos que utilizan la representación con instancias simples. V. Conclusiones Este artı́culo aborda la clasificación de textos desde una perspectiva de aprendizaje con instancias múltiples. Se evalúan las dos representaciones que se han propuesto hasta la fecha y se compara con su resolución con instancias simples. Resultados experimentales con un total de 15 algoritmos evaluados y la aplicación de test estadı́sticos nos confirmen que una de las representaciones multi-instancia resulta más adecuada para resolver el problema que la otra existiendo diferencias significativas entre ellas. Además, en la comparativa entre la representación con instancias simples y múltiples, utilizando 7 algoritmos que tienen sus contrapartes en cada uno de estos aprendizajes, nos determina que también existen estadı́sticamente diferencias entre los resultados que logran los algoritmos, comportándose mejor los algoritmos que trabajan con aprendizaje con instancias múltiples. Este estudio preliminar que se ha realizado nos lleva a pensar que la representación más idónea para expresar los problemas de clasificación de textos es la representación MIL (Opción 2 ), y por otro lado que los métodos MIL mejoran a los clásicos con su representación tradicional, ya que se han obtenido resultados de clasificación más precisos. Con lo que podemos concluir, que más avances en esta área están justificados y podrı́an optimizar la resolución de este problema. Agradecimientos Este trabajo ha sido financiado por los proyectos del Ministerio de Ciencia y Tecnologı́a y de la Junta de Andalucı́a, TIN2008-06681-C06-03 y TIC-3720, respectivamente, y los fondos FEDER. Referencias [1] Salton, G; Automatic Information Organization and Retrieval, McGraw-Hill,N,Y, 1968. [2] Thorsten Joachims; A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization, 1996. [3] Zhang, L; Zhu, J; Yao, T; An evaluation of statistical spam filtering techniques, ACM Transactions on Asian Language Information Processing (TALIP), 3, pp. 243269, 2004. [4] Kwon, O; Lee, J.; Text categorization based on k-nearest neighbor approach for Web site classification, Information Processing and Management, 39, pp. 25-44, 2003. [5] Ruiz, M. E, Srinivasan, P; Hierarchical Text Categorization Using Neural Networks, Information Retrieval, 5, pp. 87-118, 2002. [6] Mahinovs, A; Tiwari, A; Text Classification Method Review, 2007. [7] Diettrich Thomas, G; Lathrop Richard, M; Lozano-Perez, Thomas; A Solving the Multiple-Instance Problem with Axis-Parallel Rectangles, Artificial Intelligence, 89:31-71, 1997. [8] Maron, Oded; Lozano-Pérez, Tomás; A Framework for Multiple-Instance Learning, In NIPS’97: Proceedings of Neural Information Processing System 10 Denver, Colorado, USA, MIT Press pp. 570-576, 1997. [9] Wang, Jun; Zucker, Jean-Daniel; Solving the MultipleInstance Problem: A Lazy Learning Approach, In ICML’00: Proceedings of the Seventeenth International Conferenceon Machine Learning, San Francisco, CA, USA, Morgan Kaufmann Publishers, pp.1119-1126, 2000. [10] Chevaleyre, Yann; Zucker, Jean-Daniel; A Framework for Learning Rules from Multiple Instance Data, Proceedings of the 12th European Conference on Machine Learning (ECML-01), pp 49-60, 2001. [11] Andrews, Stuart; Tsochantaridis, Ioannis; Hofmann, Thomas; Support Vector Machines for Multiple Instance Learning, Advances in Neural Information Processing Systems (NIPS), pages 561-568, MIT Press, 2003. [12] Zafra, A. and Ventura, S.; G3P-MI: A Genetic Programming Algorithm for Multiple Instance Learning, Information Sciences 23 vol. 180, pp. 4496-4513, 2010. [13] Zhang, Min-Ling; Zhou, Zhi-Hua; Adapting RBF Neural Networks to Multi- Instance Learning, Neural Processing Letters 23, 1 pp. 1-26, 2006. [14] Zhou, Zhi-Hua; Zhang, Min-Ling; Neural Networks for Multi-Instance Learning, Technical report, Al Lab, Computar Science and Technology Department. Nanjing, Nanjing, China, August 2002. [15] Zhou, Zhi-Hua; Zhang, Min-Ling; ensambles of Multi-Instance Learners, Proceedings of the 14th European Conference on Machine Learning (CavtatDubrovnik,2003), L. N., G. D., B. H.. and T.L., Eds., vol 2837, pp 492-503, 2003. [16] Zhou, Zhi-Hua; Jiang, Kay; Li, Ming ; Multi-Instance Learning Based Web Mining, Applied Intelligence 22, 2, pp. 135-147, 2005. [17] Zafra, A. and Romero, C. and Ventura, S.; Multiple Instance Learning for Classifying Students in Learning Management Systems, Expert Systems with Applications. Accepted 12, vol. 38, pp. 15020-15031, 2011. [18] M.-L. Zhang and Z.-H. Zhou; M3MIML: A maximum margin method for multi-instance multi-label learning, Proceedings of the 8th IEEE International Conference on Data Mining (ICDM’08), Pisa, Italy,688-697, 2008 [19] Zhou, Z.-H.; Y.-Y. Sun; Y.-F. Li; Multi-instance learning by treating instances as non-i.i.d. samples, Proceedings of the 26th International Conference on Machine Learning (ICML’09), Montreal, Canada, 2009, pp.1249-1256. [20] He Wei; Wang Yu; Text representation and classification based on multi-instance learning, International Conference on Management Science and Engineering, 2009. ICMSE 2009. [21] F. Sebastiani; Machine learning in automated text categorization, ACM Computing Surveys, 34(1): 1-47, 2002. [22] Ian H. Witten; Eibe Frank; Data Mining: Practical Machine Learning Tools and Techniques. Second Edition, Morgan Kaufmann, 2005. [23] Zhang,Qi; Goldman, Sally A; EM-DD: An Improved Multiple-Instance Learning Technique., : Advances in Neural Information Processing Systems,14, 1073-108, 2001. [24] Ray, S.; Craven, M; Supervised versus multiple instances learning: An empirical comparison., ICML: 22nd International Conference on Machine Learning, pp 697-704, 2005. [25] Platt, J.; Machines using Sequential Minimal Optimization., B. Schoelkopf and C. Burges and A. Smola, editors, Advances in Kernel Methods - Support Vector Learning, 1998. [26] Frank,E. T.; Xu, X.; Applying propositional learning algorithms to multi-instance data., Department of Computer Science, University of Waikato, Hamilton, NZ, 2003. [27] Freund, Yoav; Schapire, Robert E.; Experiments with a new boosting algorithm., Thirteenth International Conference on Machine Learning, San Francisco, 148-156, 1996 [28] Demsar, J.; Statistical Comparisons of Classifiers over Multiple Data Sets., Journal of Machine Learning Research, Vol. 17, pp. 1-30, 2006. [29] le Cessie, S; van Houwelingen, J.C. ; Ridge Estimators in Logistic Regression., Applied Statistics, Vol. 41, No. 1, pp. 191-201, 1992 [30] Aha, D.; D. Kibler .; Instance-based learning algorithms., Machine Learning, vol.6, pp. 37-66; 1991. [31] Eibe Frank; Ian H. Witten; Generating Accurate Rule Sets Without Global Optimization., In Shavlik, J., ed., Machine Learning: Proceedings of the Fifteenth International Conference, Morgan Kaufmann Publishers, San Francisco, CA, 1998. [32] Freund, Yoav;Schapire, Robert E.; Experiments with a new boosting algorithm., Proc International Conference on Machine Learning, pages 148-156, Morgan Kaufmann, San Francisco, 1996. [33] Platt J.; Fast Training of Support Vector Machines using Sequential Minimal Optimization., Advances in Kernel Methods - Support Vector Learning, B. Schoelkopf, C. Burges, and A. Smola, eds., MIT Press, 1998. [34] Keerthi, S.S. ; Shevade, S.K.; Bhattacharyya, C.; Murthy, K.R.K.; Improvements to Platt’s SMO Algorithm for SVM Classifier Design., Neural Computation, 13(3), pp 637-649, 2001. [35] H. John, George; Langley, Pat; Estimating Continuous Distributions in Bayesian Classifiers., Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence. pp. 338-345. Morgan Kaufmann, San Mateo, 1995.