Extracción automática de contextos definitorios en corpus
Transcripción
Extracción automática de contextos definitorios en corpus
Índice Seminari Lèxic, Terminologia i Discurs Especialitzat Introducción Extracción automática de contextos definitorios en corpus anotados Antecedentes Metodología para la extracción automática Evaluación de la metodología Conclusiones Rodrigo Alarcón Martínez Instituto Universitario de Lingüística Aplicada Universidad Pompeu Fabra 26 05 2006 Introducción Antecedentes Metodología Evaluación Conclusiones Terminografía Elaborar diccionarios especializados: Identificar los términos representativos Introducción Antecedentes Metodología Evaluación Conclusiones Elaborar herramientas que faciliten el trabajo lingüístico Extracción automática de términos Identificar el significado de los términos Consultar especialistas del área de conocimiento en cuestión Extracción automática de información sobre términos Consultar textos especializados Introducción Antecedentes Metodología Evaluación Conclusiones Objetivos Desarrollar un sistema para la extracción automática de términos y definiciones Extracción automática de contextos definitorios Ingeniería Lingüística Introducción Antecedentes Metodología Evaluación Conclusiones Contexto Definitorio Fragmento textual de un documento especializado donde se aporta información útil para entender un término Spencer, en sus Principles of Psychology, publicados en 1855 , entiende la " evolución " como algo que tiene las mismas características de la sucesión , tal como en estas páginas se presenta. Autor verbo definitorio Marcadores tipográficos Término Definición 1 Introducción Antecedentes Metodología Evaluación Conclusiones Contexto Definitorio Introducción Antecedentes Metodología Evaluación Conclusiones Antecedentes - Punto de inicio Estudios Teórico - Descriptivos diccionarios glosarios ontologías Aplicaciones redes conceptuales Introducción Antecedentes Metodología Evaluación Conclusiones Estudios Teórico - Descriptivos Jennifer Pearson Terms in Context Ingrid Meyer Knowledge-rich Contexts Judit Feliu Relacions Conceptuals Carme Bach Marcadores de Reformulación Carlos Rodríguez OME’s Introducción Antecedentes Metodología Evaluación Conclusiones Terms in Context - Patrones Metalingüísticos - Sintácticos y Tipográficos I hereby define X as Y - Defining Performatives - Actos definitorios iniciales - Actos definitorios explicativos Introducción Antecedentes Metodología Evaluación Conclusiones Terms in Context - Patrones Metalingüísticos - Sintácticos y Tipográficos - Defining Performatives - Actos definitorios iniciales - Actos definitorios explicativos Introducción Antecedentes Metodología Evaluación Conclusiones Knowledge-rich Contexts - Definitorio - Definición aristotélica (X = Y + características distintivas) - Explicativo - (X = Y + características distintivas) Is/are defined as | consists(s) of 2 Introducción Antecedentes Metodología Evaluación Conclusiones Relaciones Conceptuales - Marcadores de relaciones conceptuales Introducción Antecedentes Metodología Evaluación Conclusiones Marcadores de Reformulación - Verbos verbos definir, designar, entender por, referirse a - Sintagmas verbales - Excepciones negación, posibilidad, anáfora, etc. querer decir, recibir el nombre de - Conectores es decir, esto es - Búsqueda de unidades terminológicas - Elementos tipográficos Mercedes Introducción Antecedentes Metodología Evaluación Conclusiones Marcadores de Reformulación - Búsqueda de los marcadores de reformulación BwanaNet comillas, paréntesis Introducción Antecedentes Metodología Evaluación Conclusiones Operaciones Metalingüísticas Explícitas - Operación – no oración porque los elementos constitutivos pueden funcionar tanto en frases como en oraciones incompletas - Búsqueda de unidades terminológicas Mercedes - Relación existente entre marcadores de reformulación y términos detectados Introducción Antecedentes Metodología Evaluación Conclusiones Operaciones Metalingüísticas Explícitas - Explícitas – el autor introduce indicaciones sobre la forma en que debe entenderse el término – Metalingüísticas propio lenguaje Introducción Antecedentes Metodología Evaluación Conclusiones – se utiliza el lenguaje para hablar del Operaciones Metalingüísticas Explícitas - Elementos Mínimos Constitutivos - Término - Información Semántica – Pragmática - Informativas X es llamado Y | X se define como Y - Marcadores – Operadores - Verbos Metalingüísticos - Directivas o Instruccionales - Marcadores Tipográficos Aquí se entenderá a X como Y 3 Introducción Antecedentes Metodología Evaluación Conclusiones Aplicaciones Muresans & Klavans - DEFINDER Introducción Antecedentes Metodología Evaluación Conclusiones Definder - Método para la extracción automática de definiciones Módulo 1 Saigon Identifying definitions for QA “cue-phrases” (is the term of, is called) “marcadores de texto” (e.g - - ,()) Malaisé et. al. Mining defining contexts Introducción Antecedentes Metodología Evaluación Conclusiones Definder - Método para la extracción automática de definiciones Introducción Antecedentes Metodología Evaluación Conclusiones Identifying definitions for QA “Búsqueda de respuestas textuales para preguntas de dominio abierto” Módulo 2 “frases sustantivas simples” Patrones definitorios + Términos más frecuentes Identificación de términos secundarios X = Y + (características distintivas) Introducción Antecedentes Metodología Evaluación Conclusiones Mining Defining Contexts “Búsqueda de contextos definitorios para la elaboración de ontologías” Verbos metalingüísticos (definir, entender) Introducción Antecedentes Metodología Evaluación Conclusiones Mining Defining Contexts “Identificación del término” - contextual - categoría del marcador Sustantivos metalingüísticos (definición, término) Marcadores lingüísticos (es decir, en otros términos) Marcadores tipográficos (comillas, paréntesis) 4 Introducción Antecedentes Metodología Evaluación Conclusiones Mining Defining Contexts “Identificación del término” Introducción Antecedentes Metodología Evaluación Conclusiones Mining Defining Contexts “Identificación del término” - contextual - contextual - categoría del marcador - categoría del marcador Derecha X : Y | El término X X significa Y Izquierda Sujeto Introducción Antecedentes Metodología Evaluación Conclusiones Mining Defining Contexts “Identificación de la relación semántica” Introducción Antecedentes Metodología Evaluación Conclusiones - relaciones transversales (meronimia) Puntos en común Búsqueda de patrones léxicos, sintácticos, metalingüísticos - relaciones lingüísticas (sinónimos) - relaciones jerárquicas (hiperónimos) Objeto Identificación de elementos constitutivos términos, definiciones, relaciones conceptuales, información semántico pragmática Introducción Antecedentes Metodología Evaluación Conclusiones Metodología Análisis lingüístico de contextos definitorios en español Identificación de patrones definitorios recurrentes Introducción Antecedentes Metodología Evaluación Conclusiones Tipología de contexto definitorios - Tipográficos (“X”) [ , | : | = ] (“Y”) Implementación de reglas para su extracción automática 5 Introducción Antecedentes Metodología Evaluación Conclusiones Tipología de contexto definitorios Sintácticos Introducción Antecedentes Metodología Evaluación Conclusiones Tipología de contexto definitorios Sintácticos (criterio contextual) Simples patrones verbales definitorios definir, concebir, ser + determinante Compuestos patrones pragmáticos en términos generales, en nuestra opinión Introducción Antecedentes Metodología Evaluación Conclusiones Tipología de contexto definitorios Sintácticos Término Tipología de contexto definitorios Sintácticos (criterio contextual) Simples Introducción Antecedentes Metodología Evaluación Conclusiones Compuestos Definición X significa Y X se define como Y se define a X como Y se define como X a Y Y es definido como X X es (determinante | especificador) Y Introducción Antecedentes Metodología Evaluación Conclusiones Tipología de definiciones - (Genus) + Diferencia definir, consistir en - Funcional (criterio contextual) Introducción Antecedentes Metodología Evaluación Conclusiones Extracción automática Input corpus etiquetado Módulo 2 Módulo 1 servir para, usar para - Extensional Reconocimiento de patrones definitorios Etiquetado de candidatos Reglas de excepciones Módulo 3 Identificación de elementos constitutivos constar de, consistir de Output contextos definitorios -Sinonímica llamar también 6 Introducción Antecedentes Metodología Evaluación Conclusiones Introducción Antecedentes Metodología Evaluación Conclusiones Extracción automática Input corpus etiquetado Corpus Técnico del IULA Extracción automática Búsqueda de patrones verbales definitorios Criterios de búsqueda Módulo 1 - Español - Informática, Medio ambiente, Derecho, Medicina, Genoma, Economía, General (Lingüística y Física) Concordancia compleja Reconocimiento de patrones definitorios definir, concebir, identificar, entender Introducción Antecedentes Metodología Evaluación Conclusiones Introducción Antecedentes Metodología Evaluación Conclusiones Extracción automática Extracción automática Etiquetado de candidatos Scripts en PERL <izq></izq> <pv-…></pv-…> (<nexo><nexo>) <der></der> Módulo 3 Módulo 2 Etiquetado de candidatos Reglas de excepciones Identificación de elementos constitutivos Output contextos definitorios Introducción Antecedentes Metodología Evaluación Conclusiones Extracción automática Módulo 2 Introducción Antecedentes Metodología Evaluación Conclusiones Extracción automática Módulo 3 Reglas de excepciones Filtro <s><izq>Inicialmente, Rosch </izq> <pv-con>definió </pv-con> <nexo>el prototipo como </nexo> <der>el ejemplar que mejor se reconoce, el más representativo y distintivo de una categoría, puesto que es el que comparte más características con el resto de miembros de la categoría y menos con los miembros de otras categorías.</der></s> Identificación de elementos constitutivos no en ningún caso se define como Buscar términos, patrones pragmáticos y definiciones en posiciones <izq> , <nexo> y <der> tampoco .* así se define .* ya vbo_ conjugado .* como antes se define como cuan si 7 Introducción Antecedentes Metodología Evaluación Conclusiones Introducción Antecedentes Metodología Evaluación Conclusiones Extracción automática Extracción automática IF Módulo 3 Árbol de decisiones Identificación de elementos constitutivos Término y PP dentro de <nexo></nexo> ELSIF NEXO PP dentro de <izq></izq> y Término dentro de <nexo></nexo> ELSIF Término dentro de <nexo></nexo> IF ELSIF Término dentro de <izq></izq> y PP dentro de <nexo></nexo> Posiciones <izq> <nexo> = vbo_conjugado Î Con_Verbo ELSIF IZQUIERDA Término y PP dentro de <izq></izq> ELSIF ELSIF Término dentro de <izq></izq> Posiciones <izq> <nexo> <der> Î Sin_Verbo ELSIF PP dentro de <izq></izq> y Término dentro de <der></der> DERECHA ELSIF Término dentro de <der></der> Introducción Antecedentes Metodología Evaluación Conclusiones Extracción automática Introducción Antecedentes Metodología Evaluación Conclusiones Extracción automática Expresiones regulares PP dentro de <izq></izq> y Término dentro de <nexo></nexo> NEXO IF Sin_Verbo = <izq>(preposicion.+|adverbio.*)signo?.*<\/izq> <pv....>(.+)<\/pv....> <nexo>a?determinante(nombre.+)como<\/nexo> <der>(.+)<\/der> Completo = <s><izq>En sus comienzos, a veces </izq> <pv-con>se definió</pv-con> <nexo>a la psicología como </nexo> <der>"la descripción y la explicación de los estados de conciencia" (Ladd, 1887).</der></s> Then Término Definición P. Verbal P. Pramgático Introducción Antecedentes Metodología Evaluación Conclusiones NEXO =3 =4 =2 =1 Extracción automática Término = psicología Definición = " la descripción y la explicación de los estados de conciencia " ( Ladd , 1887 ). P. Verbal = se definió como P. Pragmático = En sus comienzos Introducción Antecedentes Metodología Evaluación Conclusiones NEXO Extracción automática Término = genes Definición = las unidades biológicas de la herencia y comprobaron que estaban alineados en los cromosomas . P. Verbal = definieron como Autor = Los genetistas clásicos desde Mendel a Morgan Completo = <s><izq>Los genetistas clásicos desde Mendel a Morgan</izq> <pv-con>definieron</pv-con> <nexo>los genes como</nexo> <der>las unidades biológicas de la herencia y comprobaron que estaban alineados en los cromosomas.</der></s> 8 Introducción Antecedentes Metodología Evaluación Conclusiones IZQUIERDA Introducción Antecedentes Metodología Evaluación Conclusiones Extracción automática Término = redes de colectores Definición = parte de un sistema que incluye elementos de control y cierta capacidad de almacenamiento , de manera que es posible la laminación de las avenidas y […]. P. Verbal = se conciben como P. Pragmático = desde un punto de vista cuantitativo , Anti-Definición = meros receptores pasivos de la escorrentía urbana Completo = <s><izq>Asimismo , desde un punto de vista cuantitativo , las redes de colectores no </izq> <pv-con>se conciben</pv-con> <nexo> como </nexo> <der>meros receptores pasivos de la escorrentía urbana sino como parte de un sistema que incluye elementos de control y cierta capacidad de almacenamiento , de manera que es posible la laminación de las avenidas y […]</der></s> Extracción automática Introducción Antecedentes Metodología Evaluación Conclusiones DERECHA Introducción Antecedentes Metodología Evaluación Conclusiones Referencias Anafóricas R. Anafórica = Dicha función Definición = el " locus " de referencia para el estudio de la eficiencia con la que se utilizan los recursos sanitarios . P. Verbal = se define como Completo = <s><izq>Dicha función </izq> <pvcon>se define</pv-con> <nexo> como </nexo> <der>el " locus " de referencia para el estudio de la eficiencia con la que se utilizan los recursos sanitarios .</der></s> Introducción Antecedentes Metodología Evaluación Conclusiones Extracción automática Extracción automática Término = velocidad de reacción Definición = La velocidad a la que una sustancia desaparece o se forma en una reacción estequiométrica dada , P. Verbal = se define como Completo = <s><izq>La velocidad a la que una sustancia desaparece o se forma en una reacción estequiométrica dada , </izq> <pv-con>se define</pv-con> <nexo> como </nexo> <der>velocidad de reacción .</der></s> Extracción automática Sin Término Término = NULL Definición = un cuerpo de doctrina autocontenido que abarcaba , además , todas o casi todas las nociones esenciales . P. Verbal = Se entendía como Completo = <s><izq>NULL</izq> <pv-con>Se entendía</pv-con> <nexo> como </nexo> <der>un cuerpo de doctrina autocontenido que abarcaba , además , todas o casi todas las nociones esenciales .</der></s> Introducción Antecedentes Metodología Evaluación Conclusiones Extracción automática Con_Verbo No Clasificable IF <izq> .+ determinante (nombre .+) y | que </izq> ELSIF Izquierda = La fiebre P. Verbal = se entiende Nexo = mejor a nivel hipotalámico; el termostato casero se puede considerar como Derecha = un dispositivo que efectúa un control de la temperatura corporal semejante ; que lleva a cabo el hipotálamo . <izq> .+ vbo_conjugado determinante (nombre .+) signo </izq> IZQUIERDA ELSIF <izq> .+ determinante (nombre .+) signo </izq> ELSIF <izq> determinante (nombre .+) verbo_conjugado </izq> 9 Introducción Antecedentes Metodología Evaluación Conclusiones Extracción automática IZQUIERDA Término = bioclimatología , que Definición = « el conjunto de los factores de l clima que regulan , mediante su acción sobre el conjunto de toda la comunidad ( acción holocéntrica ), la distribución de los grandes tipos de biocenosis ». P. Verbal = definió como Completo = <s><izq>La bioclimatología , que fue creada a principios de siglo por Köpen, la</izq> <pvcon>definió</pv-con> <nexo> como </nexo> <der>« el conjunto de los factores del clima que regulan , mediante su acción sobre el conjunto de toda la comunidad ( acción holocéntrica), la distribución de los grandes tipos de biocenosis ».</der></s> Introducción Antecedentes Metodología Evaluación Conclusiones Resultados INPUT concebir = 120 Introducción Antecedentes Metodología Evaluación Conclusiones Resultados Total CD Total de NOCD 76 188 Total CD aut. 210 Total de NOCD aut. 54 INPUT identificar = 250 Total CD Introducción Antecedentes Metodología Evaluación Conclusiones Total de NOCD 62 188 Total CD aut. 186 Total de NOCD aut. 64 Precision, Recall & Fallout Total CD aut. 104 Total de NOCD aut. 16 INPUT definir = 250 Introducción Antecedentes Metodología Evaluación Conclusiones Total de NOCD 194 56 Total CD aut. 226 Total de NOCD aut. 24 Evaluación Precision , Recall & Fallout Precision – Cuánta información extraída automáticamente es correcta Recall – Cuánta información relevante se ha extraído automáticamente Fallout – Cuánta información irrelevante se ha extraído automáticamente Introducción Antecedentes Metodología Evaluación Conclusiones Precision , Recall & Fallout Precision, Recall & Fallout Precision , Recall & Fallout # total de CDs aut. Precision 71 49 Total CD INPUT entender = 264 Total CD Total de NOCD # total de CDs aut. Recall # total de candidatos aut. # total de CDs 10 Introducción Antecedentes Metodología Evaluación Conclusiones Precision, Recall & Fallout Introducción Antecedentes Metodología Evaluación Conclusiones Precision, Recall & Fallout Precision Recall Fallout Concebir 0.6730 0.9859 0.3265 Definir 0.8495 0.9896 0.4285 Entender 0.3428 0.9473 0.2872 Identificar 0.3010 0.9032 0.3404 Precision , Recall & Fallout # total de No CDs aut. Fallout # total de No CDs Introducción Antecedentes Metodología Evaluación Conclusiones Porcentaje de Recuperación Introducción Antecedentes Metodología Evaluación Conclusiones Porcentaje de Recuperación PR = 2 PR = 1 PR = 0 NC Concebir 68.5% 15.7% 11.4% 4.2% Definir 65.1% 18.2% 10.41% 6.25% Entender 54.1% 20.8% 8.3% 16.6% Identificar 53.5% 5.3% 35.7% 5.3% PR = 2 Î Término exactamente igual PR = 1 Î Término en posición correcta + ruido PR = 0 Î Término en otra posición PR = NC Î No Clasificable PR Introducción Antecedentes Metodología Evaluación Conclusiones Î No Candidatos Resultados Sin_Verbo Término en <izq> Término en <nexo> Término en <nexo> y PP en <izq> Término en <izq> y PP en <nexo> Término en <der> Con_Verbo Término en <nexo> Término en <izq> Introducción Antecedentes Metodología Evaluación Conclusiones Conclusiones Extracción automática de contextos definitorios Extracción de contextos con patrones definitorios Identificación de no candidatos Identificación de términos Identificación de definiciones Identificación de información semántica - pragmática 11 Introducción Antecedentes Metodología Evaluación Conclusiones Conclusiones Ventajas Introducción Antecedentes Metodología Evaluación Conclusiones Conclusiones Módulos Utilización de herramientas disponibles Î Corpus etiquetados Extracción de elementos constitutivos Î Proceso económico Etiquetas Reglas discriminatorias Expresiones regulares Introducción Antecedentes Metodología Evaluación Conclusiones Conclusiones Problemas Introducción Antecedentes Metodología Evaluación Conclusiones Î patrones complejos Conclusiones Problemas MAS Definitorio Î mayor Cobertura y Precisión MENOS Definitorio Î menor Precisión MAS Definitorio Î mayor Cobertura y Precisión MENOS Definitorio Î menor Precisión [lema “entender”] (infinitivo, participio, conjugado) 15 [word=“como”] [word=“se”] [lemma=“entender”] Conjugado 5 [word=“como”] Introducción Antecedentes Metodología Evaluación Conclusiones Conclusiones Problemas Introducción Antecedentes Metodología Evaluación Conclusiones Conclusiones Problemas ajenos Con_Verbo Î Términos Î Menor Precision INPUT Î Mal etiquetado original El haz/hacer/VRR2S- piramidal Verbo_Infinitivo + determinante + nombre gastrulación como un proceso/procesar/VDR1S- “clonar un gen” 12 Introducción Antecedentes Metodología Evaluación Conclusiones Introducción Antecedentes Metodología Evaluación Conclusiones Trabajo Futuro Trabajo Futuro Paradigma de Patrones definitorios Interfaz de consulta “amigable” Paradigma de Reglas discriminatorias Corpus de contextos definitorios Aprendizaje asistido Patrones pragmáticos Posiciones recurrentes de elementos constitutivos Introducción Antecedentes Metodología Evaluación Conclusiones Referencias 1 Texto plano Aguilar, C., Alarcón, R., et. al. (2004) “Reconocimiento y clasificación de patrones verbales definitorios en corpus especializados”. En memorias del IX Simposio Iberoamericano de Terminología. RITerm, Barcelona. Etiquetado POS Texto Plano Alarcón, R., Sierra, G. (2003) “The role of verbal predications for definitional contexts extraction”. En actas del 5th Meeting of Terminology & Artificial Intelligence. Reconocimiento de patrones definitorios Módulo 3 Módulo 2 Módulo 1 Etiquetado de candidatos Reglas de excepciones Identificación de elementos constitutivos Output contextos definitorios Bach, C. (2005) Los marcadores de reformulación como localizadores de zonas discursivas relevantes en el discurso especializado. RITerm, Revista Debate Terminológico. N.1 Feliu, J. (2004) Relaciones conceptuals I terminologia: anàlisi i proposta de detecció semiautomàtica. Tesis de doctorado. IULA, Universidad Pompeu Fabra. Barcelona. Malaisé, V., et. al. (2005) Mining defining contexts to help structuring differential ontologies. Anne Condamines & Teresa Cabré Castellví (eds.) Application-Driven Terminology Engineering. Terminology, 11:1. John Benjamin’s, Amsterdam, pp. 2153 Meyer, Ingrid. (2001) Extracting Knowledge-rich contexts for Terminography. Didier Bourigault (ed.) Recent Advances in Computational Terminology. John Benjamin’s, Amsterdam, pp. 279-302. Referencias 2 Pearson, Jennifer. (1998) Terms in Context. . John Benjamin’s, Ámsterdam. Rodríguez, Carlos (2004) Metalinguistic Information Extraction for Terminology. International Workshop on Computational Terminology (CompuTerm) Coling. Geneve. Saggion, Horacio (2004) Identifying Definitions in Text Collections for Question Answering. En International Conference on Language Resources and Evaluation. Proceedings. 13