Estudio de la clasificación de textos usando

Transcripción

Estudio de la clasificación de textos usando
Estudio de la clasificación de textos usando
aprendizaje con múltiples instancias
Rafael Moral, Amelia Zafra y Sebastián Ventura
Resumen— El aumento exponencial de documentos
que se produce dı́a a dı́a ha aumentado la importancia de la tarea de clasificación de textos de una forma
automática. En este contexto, el aprendizaje con instancias múltiples, que extiende al clásico de instancias simples, se presenta como una alternativa que
nos permite una mayor flexibilidad en la representación de este problema. En este trabajo se realiza un
estudio de las representaciones usadas para realizar
clasificación de textos en aprendizaje con múltiples
instancias con la finalidad de determinar si existen
diferencias entre ellas a la hora de resolver el problema. Además, se realiza una comparativa con la resolución de problema utilizando el aprendizaje tradicional
con instancias simples para mostrar si realmente la
representación con múltiples instancias resulta más
adecuada que utilizar la representación clásica. Resultados experimentales utilizando un conjunto significativo de algoritmos ponen de manifiesto la ventaja
de utilizar la representación con múltiples instancias.
Palabras clave— Clasificación de textos, aprendizaje
con instancias múltiples, aprendizaje con instancias
simples
I. Introducción
En la actualidad, existe un aumento extraordinario de información referida a cualquier disciplina humana. Gran parte de esta información no viene estructurada para poder realizar una rápida automatización. Dicha información se puede encontrar tanto
en repositorios públicos como privados. A causa de
esta gran diversidad y cantidad, se hace necesario el
uso de herramientas que automaticen el proceso de
clasificación ayudando a satisfacer las necesidades de
los usuarios en cuanto a la información que buscan,
encontrando ésta en un tiempo adecuado.
Para la mayorı́a de las tareas de categorización
se utiliza el modelo vectorial, definido por Salton
et al. [1]. En este modelo, el documento va a ser
representado por un vector, donde cada elemento de
éste va a representar a una palabra que venga en
en el documento. Al conjunto de estas palabras que
van a conformar el vector se denominará bolsa de
palabras. Se pueden aplicar distintos criterios para
representar esta bolsa de palabras: de forma binaria
(si la palabra aparece o no en el documento), con la
frecuencia en la que aparece en el documento o por
técnicas de ponderación de frecuencia de término o
TFIDF [2].
La resolución de este problema es un área de investigación que desde los años ochenta ha sufrido
un gran auge debido a que la información de la que
Departamento de Informática y
co Universidad de Córdoba 14071
{i62movir,azafra,sventura}@uco.es
Análisis NumériCórdoba. E-mail:
se dispone es cada vez mayor. El problema ha sido
resuelto desde una perspectiva de aprendizaje tradicional basado en instancias simples utilizando clasificadores estadı́sticos [3], como Naı̈ve Bayes; basados
en distancia como el kNN [4], y redes neuronales [5]
entre otros. En el trabajo de A. Mahirevs y Ashutosh Tiwari [6], se puede encontrar una revisión de
los métodos más relevantes aplicados a la clasificación de textos. En todos los trabajos se coincide en
que la resolución de este problema es costosa debido
a que los documentos son extensos y están formados
por muchas partes. En este contexto el aprendizaje con múltiples instancias (Multiple Instance Learning, MIL) propuesto recientemente por Dietterich
et al. [7], se presenta como una alternativa más flexible para la representación de los documentos. De
forma general, con este aprendizaje, el documento es
divido en diferentes partes y el problema consiste en
detectar la presencia de un determinado contenido
en algunas de las partes del documento, en lugar de
usar el documento completo.
Aunque se encuentran muchas referencias en el
aprendizaje tradicional sobre clasificación de textos,
realmente no es un tema muy investigado en MIL. En
este artı́culo se pretende profundizar en este tema,
para poder determinar la relevancia de este aprendizaje en la resolución de la clasificación de textos. Para ello, en primer lugar, se va a analizar los diferentes
enfoques para representar documentos en MIL propuestos hasta la fecha, con el fin de estudiar su efectividad en la resolución de estos problemas y analizar
cuál resulta más beneficioso. Para ello un conjunto representativo de algoritmos intentarán resolver
el problema y se analizarán los resultados obtenidos. Posteriormente, una vez seleccionada la mejor
opción de representación en MIL, se evaluará el rendimiento de los algoritmos para resolver el problema
tanto desde un punto de vista tradicional como desde
un punto de vista de aprendizaje con múltiples instancias. De este modo, se llevará a cabo un estudio
empı́rico que nos demuestre si realmente los métodos
de aprendizaje con múltiples instancias mejoran los
resultados en la clasificación de textos comparado
con su resolución en el aprendizaje tradicional.
En ámbos estudios se emplean una gran variedad
de algoritmos ampliamente utilizados en la resolución de problemas de MIL. Los resultados experimentales utilizando test estadı́sticos para sus análisis nos muestran, por un lado, la opción más idónea
para representar este problema, y por otro, que los
métodos MIL mejoran a los clásicos con la represen-
tación tradicional en la resolución de este problema
obteniendo resultados de clasificación más precisos.
El resto del artı́culo se organiza de la siguiente
forma. En la Sección 2 se introduce al aprendizaje multi-instancia y su utilización en clasificación de
textos. En la Sección 3 se presentan los dos tipos de
representación utilizados en MIL. En la Sección 4 se
exponen y analizan los resultados de la experimentación. La Sección 5 muestra las conclusiones.
II. Trabajo previo en aprendizaje con
múltiples instancias
El aprendizaje con Múltiples Instancias, definido por Dietterich et al. [7], constituye una variante
del aprendizaje supervisado tradicional que se manifiesta en aplicaciones complejas del aprendizaje automático, en las que el sistema de aprendizaje dispone de un conocimiento incompleto sobre cada uno
de los patrones de entrenamiento. Los conjuntos de
datos están formados por una serie de patrones denominados bolsas, cada una de las cuales tiene asociada una determinada categorı́a. Estas bolsas están
constituidas por una serie de instancias individuales,
para las que no se conoce la clase a la que pertenecen.
En la clasificación binaria, el objetivo del proceso de
clasificación es la organización de las bolsas en dos
conjuntos. De acuerdo a la hipótesis de Dietterich
et al. [7] se determina que un ejemplo es positivo si
contiene al menos una instancia del concepto que se
quiere aprender, y se considera negativa en caso de
no contenga ninguna instancia sobre dicho concepto.
La primera solución a un problema de aprendizaje
con múltiples instancias fue propuesta por Dietterich
et al. [7], en un estudio que trataba de determinar
la relación existente entre la estructura de una serie
de sustancias quı́micas y su actividad farmacológica. Su aplicación sobre una serie de conjuntos de
datos reales y sintéticos demostró que el algoritmo
propuesto, que consideraba las caracterı́sticas particulares de los problemas con múltiples instancias,
resultaba más adecuado que los algoritmos de aprendizaje tradicionales para la resolución de los mismos.
Un segundo algoritmo de gran extensión para la resolución de problemas de aprendizaje con múltiples
instancias es el denominado Densidad de Diversidad
(DD, Diverse Density) [8]. A partir de estos trabajos, son muchos los estudios que se pueden encontrar
con propuestas de nuevos modelos para este aprendizaje, Wang y Zucker realizaron la adaptación del
algoritmo de los k vecinos más cercanos (k-NN, k
Nearest Neighbour ) a problemas de aprendizaje con
múltiples instancias [9]. Posteriormente, Chevaleyre
y Zucker modificaron el algoritmo ID3, basado en
árboles de decisión, y el algoritmo RIPPER, centrado en la inducción de reglas, con el fin de considerar las caracterı́sticas propias de los problemas con
múltiples instancias [10]. Otras soluciones propuestas para la resolución de problemas de aprendizaje
con múltiples instancias consistieron en la utiliza-
ción de máquinas de soporte vectorial [11], algoritmos genéticos [12], redes neuronales [13][14] y ensambles multi-instancia [15].
La gran cantidad de propuestas en esta área ha
venido sobrevenida por el hecho de que la representación de determinadas aplicaciones en MIL han demostrado que ofrecen mejores resultados debido a
la flexibilidad que introduce en su representación.
Ası́, la aplicación de los planteamientos propios del
aprendizaje con múltiples instancias se ha realizado
en numerosos ámbitos de conocimiento, entre los que
destacan: predicción de la actividad de fármacos [7],
recuperación y clasificación de imágenes basadas en
contenido [9], categorización de textos [11] recomendación de páginas web ı́ndice [16] y predicción del
rendimiento de los estudiantes [17].
Centrándonos en las tareas de clasificación de textos, se han realizado pocos estudios con MIL. Stuart
Andrews et al. [11] generan un conjunto de datos
para realizar clasificación de texto mediante aprendizaje MIL. A partir de un conjunto de datos llamado OHSUMED, dividieron los documentos en pasajes mediante ventanas deslizantes superpuestas. Resultados obtenidos muestran buenos resultados a la
hora de clasificar estos conjuntos de datos. Recientemente encontramos los estudios de M-L. Zhang y
Z-H.Zhou [18], quienes proponen un algoritmo para
realizar clasificación multi-instancia y multi-etiqueta
(MI-ML) aplicándolo a clasificación de imágenes y
de textos; Z-H. Zhou et al. [19] proponen la utilización de unos algoritmos para problemas MIL en los
que las bolsas no tienen que ser independientes entre ellas, y no están distribuidas de manera idéntica,
utilizando también la categorización de textos para
realizar las pruebas; y H. Wei y Y. Wang [20] realizan
clasificación de textos mediante el algoritmo KNN,
considerando que cada documento se representa con
una bolsa y cada una de las instancias que componen la bolsa representan una frase del documento.
Estos estudios ponen de manifiesto que por las caracterı́sticas de alta-dimensionalidad y escasa representación, las técnicas MIL son un punto interesante
para estudiar la categorización de textos.
III. Representación de los documentos en
MIL
Dentro del aprendizaje con múltiples instancias,
son dos las representaciones de documentos que se
pueden encontrar. Primero describiremos el modelo
de Salton et al. [1], que es usado en ambas representaciones. Después, especificaremos las dos representaciones usadas en MIL.
A. Modelo Vectorial de Salton
Para la mayorı́a de las tareas de categorización se
utiliza el modelo vectorial, definido por Salton et al.
[1]. En este modelo, un documento puede considerarse como un vector D = (c1 , c2 , c3 ...cj ) donde c1
es un valor numérico que expresa en qué grado el do-
cumento D posee la palabra 1, c2 lo mismo para la
palabra 2, y ası́ sucesivamente. El concepto bolsa de
palabras (Bag-of-Words) o diccionario, denominado
caracterı́stica de forma generalizada en otros tipos
de problemas, suele concretarse en la ocurrencia de
determinadas palabras en el documento, aunque nada impide tomar en consideración otros factores. En
el caso más simple, pueden aplicarse valores binarios
exclusivamente; de forma que si en el documento D
aparece la palabra 1, el valor de c1 serı́a 1 y en caso contrario, 0. Como, naturalmente, una palabra
puede aparecer más de una vez en el mismo documento, y además, unas palabras pueden considerarse
como más significativas que otras, el valor numérico
de cada uno de los componentes del vector obedece normalmente a cálculos algo más sofisticados que
tienen en cuenta más factores, además de la simple
ocurrencia o no de un término, como pueden ser el
caso de la técnica de ponderación de frecuencia de
termino o TFIDF [2].
Fig. 1. Representación del documento (opción 1)
B. Reprentación del documento (opción 1)
En esta representación, cada documento corresponde a un conjunto aleatorio de párrafos de distintos documentos. El documento conforma cada
patrón del conjunto de datos, que en MIL, se conoce
habitualmente como bolsa, y cada bolsa está compuesta por varias instancias que representan cada
uno de los párrafos de textos que se han considerado. Los diferentes párrafos que se consideran se
corresponden, no con el concepto de párrafo que se
tiene comúnmente, sino con fragmentos obtenidos de
cada documento de acuerdo al uso de una ventana
deslizante que delimita el texto que se considera en
cada instancia [19]. Las bolsas positivas tienen un
porcentaje de instancias/fragmentos de textos que
pertenezcan a la categorı́a que representan, mientras que el resto de instancias que conforman cada
ejemplo se escogen de fragmentos de textos que pertenecen a otra categorı́a.
Concretamente, el conjunto de datos utilizados
en la experimentación es el proporcionado por Z-H.
Zhou et al. [19]. La Figura 1 muestra la representación utilizada. Los datos son obtenidos de la colección 20-Newsgroups, una colección ampliamente utilizada en clasificación de textos, utilizando 20 grupos
de noticias populares diferentes, perteneciendo cada
grupo de noticias a una categorı́a distinta. Para trabajar con clasificación binaria (clase positiva y negativa), se trabaja con un total de 20 conjuntos de datos diferentes, cada uno de ellos representa una de las
categorı́as como positiva y el resto de ejemplos que
no pertenecen a dicha categorı́a como negativa. Especı́ficamente, cada conjunto se compone de 50 bolsas/documentos positivas y 50 bolsas/documentos
negativas. Cada bolsa positiva contiene un 3 % de
instancias, escogidas aleatoriamente, que pertenecen
a fragmentos de texto de ese grupo de noticias; y en
el caso de las bolsas negativas están escogidas aleato-
Fig. 2. Representación del documento (opción 2)
ria y uniformemente entre el resto de categorı́as. Se
utiliza la representación TFIDF [2]. La información
sobre 20-Newsgroups se muestra en la Tabla I.
C. Reprentación del documento (opción 2)
En esta representación también cada uno de los
documentos que se utilizan se representan por una
bolsa. De forma similar, un documento es dividido en
párrafos, los cuales son delimitados mediante ventanas deslizantes de tamaño fijo [18]. Cada fragmento
es traducido a un vector de bolsas de palabras mediante el modelo vectorial definido por Salton et al.
[1], definiéndose ası́ cada una de las instancias de la
bolsa. Existirá una bolsa por cada documento, y cada bolsa tendrá tantas instancias como fragmentos
o divisiones del documento se hayan realizado. Esta
representación puede verse en la Figura 2.
El conjunto de datos utilizado por Zhang y Zhou
[18] son los datos que se han empleado para la experimentación con este tipo de representación. Los datos son obtenidos de la colección Reuters-21578, una
base de datos ampliamente estudiada en este tipo
de problemas. El conjunto de documentos utilizados
por Zhang y Zhou [18] se divide en 7 categorı́as y
está compuesto por 2000 documentos donde el 15 %
pertenece a más de una clase, siendo el promedio
global de clases por documento del 1,15 %. Cada documento se representa como una bolsa de instancias
usando la técnica de ventana deslizante [11], donde
cada instancia corresponde a un segmento de texto de una ventana deslizante de tamaño 50. El es-
TABLA I
Información sobre el conjunto de datos Reuters y
20-Newsgroups
Reuters
N o de conjunto de datos
N
o
Pos
Neg
de bolsas
Bolsa de palabras
Instancias por Bolsa
N o medio de instancias
Esquema de pesado
Min
Max
20-Newsgroups
7
20
50
50
50
50
243
200
2
18
8
84
3.96
40.07
Frecuencia
TFIDF
quema de pesado utilizado se basa en la frecuencia
de términos [21]. Además, con la finalidad de reducir dimensionalidad, el 2 % del conjunto de palabras
con mayor frecuencia en los documentos son eliminadas, quedando ası́ cada instancia representada por
un vector con una bolsa de palabras de 243 elementos.
Con la finalidad de compatibilizar lo máximo posible ambos tipos de representaciones, se ha realizado
un preprocesado del conjunto de datos de Reuters
con respecto a la configuración propuesta por Zhang
y Zhou [18]. Para ello, se han eliminado todas las
bolsas/documentos que pertenezcan a más de una
clase, trabajando ası́ con una clasificación que utiliza solamente una etiqueta. A partir de las bolsas
que quedan disponible, se dispone de 7 categorı́as
diferentes de textos. De forma similar al conjunto de
datos 20-Newsgroups, se trabaja con clasificación binaria, diseñando ası́ 7 conjuntos de datos diferentes.
En cada conjunto de datos, una de las categorı́as se
considera positiva y el resto negativa. A su vez, cada
conjunto de datos está formado por 50 bolsas positivas y 50 bolsas negativas. Las 50 bolsas positivas
se han escogido aleatoriamente entre el conjunto de
bolsas pertenecientes a la categorı́a considerada en
ese conjunto de datos, mientras que las bolsas negativas se han escogido de forma aleatoria y uniforme
entre el resto de clases. El resumen de como quedan
los conjuntos de datos para la experimentación se
muestra en la Tabla I.
IV. Experimentación
La experimentación lleva a cabo dos estudios. El
primero de ellos analiza los resultados obtenidos con
distintos algoritmos MIL utilizando las dos representaciones que hemos descrito en la Sección III y tiene
como finalidad estudiar si alguna de las representaciones resulta más adecuada para este problema. El
segundo estudio realiza una comparativa con la representación multi-instancia que ha resultado más
conveniente del estudio anterior y la representación
con instancias simples. Este estudio nos permite determinar si realmente es beneficioso trabajar con este
tipo de aprendizaje para resolver problemas de clasificación de textos.
A. Comparativa de las representaciones con múltiples instancias
Para realizar la comparativa entre los dos tipos de
representaciones, se han escogido una serie de algoritmos MIL que se encuentran en el software WEKA[22]. En el estudio experimental se han considerado 15 algoritmos, de los cuales encontramos métodos basados en diversidad de la densidad: MIDD
[8], MIEMDD [23] y MDD [8]; métodos basados en
regresión logı́stica: MILR [24]; métodos basados en
máquina de soporte vectorial: MISMO [25]; métodos basados en distancias: CitationKNN [9] y MIOptimalBall [26]; métodos basados en reglas: PART,
Bagging con PART y AddaBoost con PART usando
el enfoque MIWrapper [26] y el MISimple [26] (estos
enfoques son diferentes adaptaciones de los métodos
clásicos para trabajar con MIL); métodos basados en
árboles de decisión: MIBoost [27] y métodos basados
en probabilidades: Naı̈ve Bayes [26].
Los conjuntos de datos que se emplean son las dos
bases de datos que se han comentado en la sección
III.B (20-Newsgroups, formado por 20 conjunto de
datos) y la sección III.C (Reuters, formado por 7
conjuntos de datos). En la ejecución de los algoritmos se va a utilizar validación cruzada 10-Fold empleando la configuración que los autores aconsejan
por defecto de cada algoritmo.
Los resultados obtenidos en los distintos algoritmos respecto a los datos de Reuters están en la Tabla II. Se puede observar como la mayorı́a de los
algoritmos obtienen una buena exactitud exceptuando los algoritmos basados en diversidad de densidad
(MIDD, MIEMDD y MDD) y CitationKNN. En estos casos, si evaluamos los valores de sensibilidad y
especificidad que obtienen podemos aprenciar que
estos métodos tienden a obtener una sensibilidad
muy baja siendo ésta la causa de los malos valores de
exactitud que presentan, mientras que en el resto de
métodos se consigue un equilibrio entre ambas métricas. Se ha aplicado el test de Friedman [28] para determinar cuáles son los algoritmos que mejor resuelven este problema y si existen diferencias significativas entre ellos. El test de Friedman (distribuı́do con
una Chi-cuadrado con 14 grados de libertad) nos da
un resultado de 75.8929 para la exactitud y un pvalue
de 0. De este modo considerando una confianza del
99 %, se rechaza la hipotesis nula y se determina que
existen diferencias significativas entre los diferentes
algoritmos para resolver el problema. En la Tabla II
junto con los valores de exactitud se muestran los
ranking que tiene cada algoritmo de acuerdo a la
aplicación de este test. Evaluando los ranking con
respecto a la métrica de exactitud podemos determinar, a priori, que el algoritmo que obtiene un ranking
más bajo es el que obtiene mejores resultados en los
diferentes conjuntos de datos. Se puede ver que los
2 algoritmos que tienen el ranking más bajo, y por
lo tanto ofrecen mejores resultados, son DecisionStump (MIBoost) y AdaBoost & PART (MISimple).
TABLA II
Resultados de exactidud para el conjunto de datos Reuters
Algoritmos
Cat1
Cat2
Cat3
Cat4
Cat5
Cat6
Cat7
Ranking
MIDD ↓
0.500
0.500
0.500
0.500
0.550
0.500
0.500
14.000
MIEMDD ↓
0.760
0.620
0.540
0.620
0.630
0.670
0.720
12.000
MDD ↓
0.500
0.500
0.500
0.500
0.560
0.500
0.500
13.857
MILR
0.940
0.900
0.830
0.830
0.830
0.840
0.920
5.357
MIOptimalBall
0.830
0.880
0.820
0.870
0.840
0.870
0.860
7.571
CitationKNN ↓
0.500
0.500
0.500
0.500
0.500
0.500
0.500
14.143
DecisionStump1
0.900
0.910
0.840
0.990
0.870
0.890
0.890
3.143
0.870
0.810
0.860
0.730
0.790
0.730
0.820
9.286
0.920
0.910
0.860
0.980
0.860
0.900
0.860
3.143
0.870
0.780
0.880
0.980
0.820
0.850
0.870
6.286
0.820
0.880
0.850
0.950
0.850
0.840
0.910
5.786
0.890
0.900
0.850
0.960
0.870
0.890
0.890
3.643
0.940
0.880
0.840
0.920
0.850
0.880
0.880
4.923
0.910
0.850
0.820
0.820
0.810
0.830
0.830
8.714
0.880
0.860
0.840
0.790
0.800
0.830
1
MIBoost
2
MISMO
0.880
8.143
MIWrapper
4
MISimple
RBF Kernel
2
↓
AdaBoost & PART
PART
3
AdaBoost & PART
Bagging & PART
PART
SMO
3
4
4
4
4
Naı̈ve Bayes
4
3
TABLA III
Resultados de exactitud para el conjunto de datos 20-Newsgroups (Categorı́as 1-10)
Algoritmos
Cat1
Cat2
Cat3
Cat4
Cat5
Cat6
Cat7
Cat8
Cat9
Cat10
MIDD
0.490
0.580
0.520
0.480
0.590
0.560
0.430
0.560
0.430
0.470
MIEMDD
0.520
0.530
0.620
0.520
0.500
0.370
0.500
0.430
0.480
0.520
MDD
0.500
0.470
0.390
0.440
0.400
0.360
0.500
0.400
0.430
0.460
MILR
0.550
0.550
0.500
0.520
0.470
0.510
0.520
0.430
0.500
0.590
MIOptimalBall
0.560
0.500
0.370
0.650
0.370
0.650
0.480
0.500
0.660
0.480
CitationKNN
0.510
0.500
0.500
0.500
0.440
0.490
0.440
0.510
0.500
0.530
DecisionStump1
0.490
0.490
0.740
0.550
0.480
0.570
0.510
0.510
0.630
0.670
RBF Kernel2
0.690
0.600
0.640
0.620
0.640
0.670
0.640
0.710
0.690
0.780
AdaBoost & PART3
0.670
0.560
0.550
0.580
0.640
0.730
0.600
0.580
0.820
0.680
PART3
0.580
0.470
0.660
0.470
0.680
0.670
0.550
0.660
0.760
0.630
AdaBoost & PART4
0.420
0.470
0.520
0.520
0.510
0.530
0.460
0.450
0.570
0.600
Bagging & PART4
0.550
0.530
0.500
0.490
0.520
0.550
0.460
0.540
0.670
0.630
PART4
0.560
0.450
0.510
0.540
0.500
0.510
0.450
0.560
0.530
0.550
SMO4
0.500
0.510
0.500
0.510
0.500
0.510
0.500
0.500
0.500
0.500
Naı̈ve Bayes4
0.490
0.490
0.500
0.530
0.500
0.520
0.510
0.500
1
MIBoost
2
MISMO
Para estudiar entre qué algoritmos existen diferencias significativas en sus resultados se va a aplicar
el contraste de Holm [28] teniéndose en cuenta que
se escoge como algoritmo de control el que menor
ranking ha obtenido, que en este caso es AdaBoost
& PART (MISimple). En la Tabla II se puede observar que aquellos algoritmos que son considerados
peores propuestas aparecen con un sı́mbolo ↓ junto
a su nombre, siendo las peores propuestas los algoritmos de diverse density (MDD, MIDD, MIEMDD)
y el basado en distancia (CitationKNN).
En el caso del conjunto de datos de 20-Newsgroups
se observa que los resultados de exactitud son relativamente bajos en todos los métodos (ver Tabla III
y Tabla IV). Casi todos los algoritmos que se han
utilizado rondan sólo el 50 % de exactitud respecto
a las bolsas clasificadas. Existiendo una tendencia
0.530
0.530
3
MIWrapper
4
MISimple
general a obtener una mejor especifidad que sensibilidad. Los únicos algoritmos que han pasado la barrera del 60 % han sido el basado en el método de
máquina de soporte vectorial, MISMO, y el método AdaBoost & PART(MISimple) que siguiendo la
tendencia de la mayorı́a, obtienen una mayor especifidad que sensibilidad. Estos hechos se han contrastado mediante el test de Friedman [28] (distribuı́do
con una chi-cuadrado con 14 grados de libertad),
que nos da como resultado de exactitud 129.83 y un
pvalue de 0.0. Por tanto, con una confianza del 99 %
se rechaza la hipótesis nula y también se determina
que existen diferencias significativas entre los resultados de los diferentes algoritmos. En la Tabla IV
se muestra también el ranking de los algoritmos junto con los valores de exactitud. De igual forma, se
aplica un contraste a posteriori, Holm[28], para ob-
TABLA IV
Resultados de exactitud para el conjunto de datos 20-Newsgroups (Categorı́as 10-20)
Algoritmos
Cat11
Cat12
Cat13
Cat14
Cat15
Cat16
Cat17
Cat18
Cat19
Cat20
MIDD ↓
0.500
0.450
0.500
0.450
0.490
0.530
0.530
0.520
0.420
0.590
Ranking
9.425
MIEMDD ↓
0.470
0.450
0.430
0.400
0.450
0.500
0.560
0.470
0.490
0.540
10.325
MDD ↓
0.480
0.490
0.450
0.460
0.320
0.420
0.450
0.570
0.500
0.530
12.350
MILR ↓
0.470
0.570
0.470
0.420
0.510
0.430
0.430
0.490
0.430
0.530
10.125
MIOptimalBall ↓
0.380
0.510
0.360
0.560
0.460
0.470
0.450
0.470
0.430
0.400
10.575
CitationKNN ↓
0.460
0.530
0.530
0.510
0.510
0.600
0.530
0.560
0.480
0.520
9.525
DecisionStump1 ↓
0.640
0.630
0.530
0.670
0.700
0.540
0.580
0.760
0.640
0.520
5.350
RBF Kernel2
0.710
0.640
0.570
0.600
0.730
0.600
0.610
0.720
0.630
0.650
2.150
AdaBoost&PART3
0.810
0.750
0.500
0.590
0.700
0.650
0.710
0.800
0.640
0.570
2.525
PART3
0.730
0.720
0.510
0.580
0.650
0.620
0.670
0.810
0.620
0.470
4.425
AdaBoost&PART4 ↓
0.460
0.590
0.340
0.550
0.520
0.500
0.490
0.640
0.500
0.570
8.925
Bagging&PART4 ↓
0.540
0.560
0.480
0.530
0.520
0.570
0.470
0.640
0.510
0.590
6.975
PART4 ↓
0.530
0.520
0.480
0.580
0.490
0.460
0.400
0.670
0.470
0.600
8.675
0.500
0.510
9.575
0.510
1
MIBoost
2
MISMO
0.510
9.075
MIWrapper
4
MISimple
SMO4 ↓
0.500
0.500
0.530
0.510
0.500
0.510
0.500
0.500
Naı̈ve Bayes4 ↓
0.490
0.470
0.570
0.470
0.510
0.500
0.500
0.500
servar las diferencias entre los distintos algoritmos.
Todos aquellos algoritmos que aparecen en las tablas
anteriores con un sı́mbolo (↓) junto a su nombre, indican que son consideradas peores propuesta que el
algoritmo de control, que en este caso es RBF kernel
(MISMO), que es el que tienen un ranking más bajo.
Como coincidencia en ambas representaciones, AdaBoost & PART(MISimple), aparece como una de las
mejores propuestas. El resto de algoritmos en este
caso son considerados peores propuestas.
Para comparar ambas representaciones, se va a
evaluar una media de los resultados de exactitud
que cada algoritmo obtiene en cada una de las representaciones y se aplicará un test de Wilcoxon [28]
para ver si existen diferencias en los resultados que
obtienen en cada representación. En la Tabla V se
muestra un resumen de los resultados medios obtenidos por cada algoritmo en cada una de las representaciones. Podemos ver que con la representación
usada por el conjunto de datos Reuters todos los
algoritmos superan ampliamente los valores que obtienen cuando intentan resolver el conjunto de datos
20-Newsgroups, teniendo ambos conjuntos de datos
una configuración muy similar y variando la representación de los documento. La existencia de estas
diferencias las podemos comprobar mediante el test
de rangos de signo de Wilcoxon [28], con el que evaluamos la comparación entre cada par de representaciones. Aplicando dicho test sobre los resultados
comentados, se obtiene un pvalue = 1,831E −4 . Por
ello, con una confianza del 99 %, se rechaza la hipótesis nula, confirmándose que existen diferencias entre
ambas representaciones y observando que Reuters es
mejor representación debido a que su suma de rangos que es 118 es mayor que la de Newsgroup que
es 2, mostrando ası́ que los algoritmos obtienen valores de exactitud más altos con la representación
considerada como Opción 2.
3
TABLA V
Resultados generales de exactitud de Reuters y
20-Newsgroups
20-Newsgroups1
Reuters2
MIDD
0.505
0.507
MIEMDD
0.490
0.651
MDD
0.451
0.509
MILR
0.495
0.870
MIOptimalBall
0.486
0.853
CitationKNN
0.508
0.500
DecisionStump
(MIBoost)
0.593
0.899
RBF Kernel
(MISMO)
0.657
0.801
Adaboost & PART
(MISimple)
0.657
0.899
PART
(MISimple)
0.626
0.864
AdaBoost & PART
(MIWrapper)
0.511
0.871
Bagging & PART
(MIWrapper)
0.543
0.893
PART
(MIWrapper)
0.518
0.884
SMO
(MIWrapper)
0.504
0.839
Naı̈ve Bayes
(MIWrapper)
0.507
0.840
1 Media de los resultados obtenidos en los 20 conjuntos de datos
2 Media de los resultados obtenidos en los 7 conjuntos de datos
B. Comparativa entre representación con múltiples
instancias e instancias simples
En esta sección, se va a realizar un estudio que nos
permita comparar la representación de textos utilizando instancias simples y múltiples. Para la representación con instancias múltiples, se va a emplear
la opción 2 especificada en la sección III.C, que es la
que ha proporcionado mejores resultados en la com-
TABLA VI
Resultados de exactitud para el conjunto de datos Reuters (Instancias simples)
Algoritmos
Cat1
Cat2
Cat3
Cat4
Cat5
Cat6
Cat7
AdaBoost
0.910
0.980
0.780
0.950
0.900
0.830
0.850
DecisionStump
0.890
1.000
0.610
0.820
0.800
0.860
0.890
Logistic
0.830
0.940
0.900
0.850
0.760
0.740
0.840
SMO
Ibk
0.910
0.810
0.940
0.920
0.860
0.790
0.820
0.700
0.740
0.800
0.710
0.720
0.800
0.640
PART
0.930
0.980
0.750
0.950
0.830
0.800
0.850
NaiveBayes
0.930
0.910
0.780
0.770
0.730
0.710
0.770
parativa entre las dos representaciones analizadas.
Para la representación con instancias simples se ha
realizado un preprocesado de los datos que simula
la información con la que se trabajarı́a si se hubiese
analizado la información con esta representación y
que está especificada en la sección IV.B.1.
En la sección IV.B.2. se analizarán los resultados
obtenidos por ambas representaciones para determinar si existen diferencias en los resultados obtenidos
por los algoritmos.
B.1 Preprocesado a Instancias Simples
Para realizar el estudio entre la representación de
múltiples instancias e instancias simples, se tiene que
traducir los datos del conjunto de datos Reuters que
utilizaban una representación con instancias múltiples a instancias simples. Siguiendo la representación de Reuters en MIL, cada bolsa representa un
documento completo formado por un conjunto de
instancias. Cada instancia representa un párrafo del
documento y está compuesto por la frecuencia de
las palabras en ese párrafo. Para traducir cada documento de esta representación a la la representación con instancias simples, cada documento tiene
que ser representado por una instancia simple. Para
ello, se genera una única instancia por documento
que está compuesta por la suma de las frecuencias
de las palabras considerando todos los párrafos en
ese documento. De este modo, cada instancia representarı́a la frecuencia de las palabra en el documento
completo.
B.2 Análisis de la comparativa
Para realizar este estudio experimental se han considerado 7 algoritmos de clasificación clásicos en el
aprendizaje con instancias simples, que considera
métodos de regresión logı́stica: Logistic [29]; basados
en distancias: IBk [30]; métodos basados en árboles de decisión: DecisionStump [22]; basados en reglas: PART [31]; ensambles: AdaBoost&PART [32];
máquina de soporte vectorial: SMO [33][34] y métodos probabilı́sticos: Naı̈ve Bayes [35]. En MIL, de los
15 algoritmos ejecutados y mostrados en el estudio
experimental de la sección IV.A, se selecciona para la comparativa los que tienen su contraparte con
respecto a los utilizados en instancia simples. Es-
tos serı́an los métodos: AdaBoost&PART (MISimple), DecisionStump (MIBoost), Regression Logistic
(MILR), SMO (MIWrapper), MIOptimalBall (based on distance), PART (MIWrapper) y Naive Bayes
(MIWrapper).
La Tabla VI muestra los resultados de exactitud
obtenidos por los algoritmos con aprendizaje con instancias simples. Para comparar ambas representaciones, se va a evaluar le medida de exactitud lograda
por los métodos en cada una de las representaciones,
para el caso de MIL se consideran los resultados obtenidos por los algoritmos especificados al principio
de esta sección (que son los similares en ambas representaciones) y cuyos resultados se mostraron en
la Tabla II. A simple vista, se puede apreciar que
los métodos de MIL consiguen precisiones más altas que los de instancia simple. Aplicando el test
de los rangos con signo Wilcoxon [28] obtenemos un
pvalue = 0,0529, determinando con una confianza
del 90 % que se rechaza la hipótesis nula y por tanto
se determina que existen diferencias entre la representación multi-instancia y la representación tradicional. Además, los resultados nos dan como mejor
opción la representación multi-instancia al poseer un
mayor valor de suma de rangos. Concretamente, obtiene un valor de 844 frente a los 381 que obtienen
los métodos que utilizan la representación con instancias simples.
V. Conclusiones
Este artı́culo aborda la clasificación de textos desde una perspectiva de aprendizaje con instancias
múltiples. Se evalúan las dos representaciones que
se han propuesto hasta la fecha y se compara con
su resolución con instancias simples. Resultados experimentales con un total de 15 algoritmos evaluados y la aplicación de test estadı́sticos nos confirmen
que una de las representaciones multi-instancia resulta más adecuada para resolver el problema que la
otra existiendo diferencias significativas entre ellas.
Además, en la comparativa entre la representación
con instancias simples y múltiples, utilizando 7 algoritmos que tienen sus contrapartes en cada uno de
estos aprendizajes, nos determina que también existen estadı́sticamente diferencias entre los resultados
que logran los algoritmos, comportándose mejor los
algoritmos que trabajan con aprendizaje con instancias múltiples.
Este estudio preliminar que se ha realizado nos
lleva a pensar que la representación más idónea para expresar los problemas de clasificación de textos
es la representación MIL (Opción 2 ), y por otro lado que los métodos MIL mejoran a los clásicos con
su representación tradicional, ya que se han obtenido resultados de clasificación más precisos. Con lo
que podemos concluir, que más avances en esta área
están justificados y podrı́an optimizar la resolución
de este problema.
Agradecimientos
Este trabajo ha sido financiado por los proyectos
del Ministerio de Ciencia y Tecnologı́a y de la Junta
de Andalucı́a, TIN2008-06681-C06-03 y TIC-3720,
respectivamente, y los fondos FEDER.
Referencias
[1] Salton, G; Automatic Information Organization and Retrieval, McGraw-Hill,N,Y, 1968.
[2] Thorsten Joachims; A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization,
1996.
[3] Zhang, L; Zhu, J; Yao, T; An evaluation of statistical
spam filtering techniques, ACM Transactions on Asian
Language Information Processing (TALIP), 3, pp. 243269, 2004.
[4] Kwon, O; Lee, J.; Text categorization based on k-nearest
neighbor approach for Web site classification, Information
Processing and Management, 39, pp. 25-44, 2003.
[5] Ruiz, M. E, Srinivasan, P; Hierarchical Text Categorization Using Neural Networks, Information Retrieval, 5, pp.
87-118, 2002.
[6] Mahinovs, A; Tiwari, A; Text Classification Method Review, 2007.
[7] Diettrich Thomas, G; Lathrop Richard, M; Lozano-Perez,
Thomas; A Solving the Multiple-Instance Problem with
Axis-Parallel Rectangles, Artificial Intelligence, 89:31-71,
1997.
[8] Maron, Oded; Lozano-Pérez, Tomás; A Framework for
Multiple-Instance Learning, In NIPS’97: Proceedings of
Neural Information Processing System 10 Denver, Colorado, USA, MIT Press pp. 570-576, 1997.
[9] Wang, Jun; Zucker, Jean-Daniel; Solving the MultipleInstance Problem: A Lazy Learning Approach,
In
ICML’00: Proceedings of the Seventeenth International Conferenceon Machine Learning, San Francisco, CA,
USA, Morgan Kaufmann Publishers, pp.1119-1126, 2000.
[10] Chevaleyre, Yann; Zucker, Jean-Daniel; A Framework
for Learning Rules from Multiple Instance Data, Proceedings of the 12th European Conference on Machine
Learning (ECML-01), pp 49-60, 2001.
[11] Andrews, Stuart; Tsochantaridis, Ioannis; Hofmann,
Thomas; Support Vector Machines for Multiple Instance Learning, Advances in Neural Information Processing
Systems (NIPS), pages 561-568, MIT Press, 2003.
[12] Zafra, A. and Ventura, S.; G3P-MI: A Genetic Programming Algorithm for Multiple Instance Learning, Information Sciences 23 vol. 180, pp. 4496-4513, 2010.
[13] Zhang, Min-Ling; Zhou, Zhi-Hua; Adapting RBF Neural
Networks to Multi- Instance Learning, Neural Processing
Letters 23, 1 pp. 1-26, 2006.
[14] Zhou, Zhi-Hua; Zhang, Min-Ling; Neural Networks
for Multi-Instance Learning, Technical report, Al Lab,
Computar Science and Technology Department. Nanjing,
Nanjing, China, August 2002.
[15] Zhou, Zhi-Hua; Zhang, Min-Ling;
ensambles of
Multi-Instance Learners,
Proceedings of the 14th
European Conference on Machine Learning (CavtatDubrovnik,2003), L. N., G. D., B. H.. and T.L., Eds., vol
2837, pp 492-503, 2003.
[16] Zhou, Zhi-Hua; Jiang, Kay; Li, Ming ; Multi-Instance
Learning Based Web Mining, Applied Intelligence 22, 2,
pp. 135-147, 2005.
[17] Zafra, A. and Romero, C. and Ventura, S.; Multiple Instance Learning for Classifying Students in Learning Management Systems, Expert Systems with Applications.
Accepted 12, vol. 38, pp. 15020-15031, 2011.
[18] M.-L. Zhang and Z.-H. Zhou; M3MIML: A maximum
margin method for multi-instance multi-label learning,
Proceedings of the 8th IEEE International Conference on
Data Mining (ICDM’08), Pisa, Italy,688-697, 2008
[19] Zhou, Z.-H.; Y.-Y. Sun; Y.-F. Li; Multi-instance learning
by treating instances as non-i.i.d. samples, Proceedings
of the 26th International Conference on Machine Learning
(ICML’09), Montreal, Canada, 2009, pp.1249-1256.
[20] He Wei; Wang Yu; Text representation and classification
based on multi-instance learning, International Conference on Management Science and Engineering, 2009. ICMSE
2009.
[21] F. Sebastiani; Machine learning in automated text categorization, ACM Computing Surveys, 34(1): 1-47, 2002.
[22] Ian H. Witten; Eibe Frank; Data Mining: Practical Machine Learning Tools and Techniques. Second Edition,
Morgan Kaufmann, 2005.
[23] Zhang,Qi; Goldman, Sally A; EM-DD: An Improved Multiple-Instance Learning Technique., : Advances
in Neural Information Processing Systems,14, 1073-108,
2001.
[24] Ray, S.; Craven, M; Supervised versus multiple instances
learning: An empirical comparison., ICML: 22nd International Conference on Machine Learning, pp 697-704, 2005.
[25] Platt, J.; Machines using Sequential Minimal Optimization., B. Schoelkopf and C. Burges and A. Smola, editors,
Advances in Kernel Methods - Support Vector Learning,
1998.
[26] Frank,E. T.; Xu, X.; Applying propositional learning algorithms to multi-instance data., Department of Computer Science, University of Waikato, Hamilton, NZ, 2003.
[27] Freund, Yoav; Schapire, Robert E.; Experiments with a
new boosting algorithm., Thirteenth International Conference on Machine Learning, San Francisco, 148-156, 1996
[28] Demsar, J.; Statistical Comparisons of Classifiers over
Multiple Data Sets., Journal of Machine Learning Research, Vol. 17, pp. 1-30, 2006.
[29] le Cessie, S; van Houwelingen, J.C. ; Ridge Estimators
in Logistic Regression., Applied Statistics, Vol. 41, No. 1,
pp. 191-201, 1992
[30] Aha, D.; D. Kibler .; Instance-based learning algorithms.,
Machine Learning, vol.6, pp. 37-66; 1991.
[31] Eibe Frank; Ian H. Witten; Generating Accurate Rule Sets Without Global Optimization., In Shavlik, J.,
ed., Machine Learning: Proceedings of the Fifteenth International Conference, Morgan Kaufmann Publishers, San
Francisco, CA, 1998.
[32] Freund, Yoav;Schapire, Robert E.; Experiments with a
new boosting algorithm., Proc International Conference
on Machine Learning, pages 148-156, Morgan Kaufmann,
San Francisco, 1996.
[33] Platt J.; Fast Training of Support Vector Machines using
Sequential Minimal Optimization., Advances in Kernel
Methods - Support Vector Learning, B. Schoelkopf, C.
Burges, and A. Smola, eds., MIT Press, 1998.
[34] Keerthi, S.S. ; Shevade, S.K.; Bhattacharyya, C.;
Murthy, K.R.K.; Improvements to Platt’s SMO Algorithm
for SVM Classifier Design., Neural Computation, 13(3),
pp 637-649, 2001.
[35] H. John, George; Langley, Pat; Estimating Continuous
Distributions in Bayesian Classifiers., Proceedings of the
Eleventh Conference on Uncertainty in Artificial Intelligence. pp. 338-345. Morgan Kaufmann, San Mateo, 1995.