Clustering Multilingüe basado en el reconocimiento de entidades
Transcripción
Clustering Multilingüe basado en el reconocimiento de entidades
Clustering Multilingüe basado en el reconocimiento de entidades cognadas Arantza Casillas, Raquel Martínez, Soto Montalvo El clustering multilingüe parte de un conjunto de documentos escritos en varios idiomas y tiene como objetivo agruparlos de manera que se puedan obtener clusters o grupos multilingües. Un cluster multilingüe contendrá aquellos documentos que estén relacionados o traten del mismo tema aunque estén escritos en diferentes lenguas. Así, en un clustering multilingüe sólo habrá clusters monolingües en el caso en que sólo haya similitudes entre el contenido de documentos de una misma lengua, en otro caso los clusters serán multilingües. Hay diferentes enfoques a la hora de abordar el clustering multilingüe. Por una parte, se pueden traducir los documentos a una lengua eje, seleccionar rasgos en los documentos y traducir sólo éstos, utilizar rasgos con más o menos independencia de la lengua con ayuda de recursos multilingües (números, fechas, entradas de tesauros multilingües, entidades, …). Por otra parte, en algunos trabajos se realiza un clustering previo en cada una de las lenguas, es decir un clustering monolingüe, para luego establecer relaciones entre los clusters obtenidos, dando lugar así a los clusters multilingües. En otros trabajos, se plantea desde el principio el clustering del conjunto completo de los documentos sin una fase previa monolingüe. Nuestro trabajo explora la realización del clustering multilingue sin utilizar recursos multilingües, pero partiendo de que los documentos tienen identificadas y clasificadas las entidades nombradas de tipo “strong”. De cara a establecer los clusters nos basamos en la identificación de entidades cognadas y en fijar umbrales con respecto al número y tipo de entidades cognadas que tienen que tener en común los documentos del mismo cluster. No se ha utilizado ningún otro tipo de recurso ni información para establecer los clusters. La evaluación se ha llevado a cabo con un conjunto de documentos en castellano e inglés extraídos del corpus recopilado en el proyecto HERMES. Dicho corpus está formado por noticias de agencia y es bien conocida la importancia que las entidades tienen en este tipo de documentos. Con el fin de utilizar medidas de evaluación externa, se ha recopilado un subconjunto comparable que ha sido agrupado manualmente para evaluar la bondad de los resultados. Tras experimentar con otros enfoques basados en la traducción de rasgos, bien utilizando EuroWordNet o bien utilizando un diccionario, los resultados obtenidos indican que la identificación de entidades cognadas es un procedimiento simple con el que se obtienen resultados muy aceptables en el clustering multilingüe de noticias.