Pulse aquí para descargar el documento con la historia del
Transcripción
Pulse aquí para descargar el documento con la historia del
El Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid Antonio Moreno Sandoval El Laboratorio de Lingüü íística Informaí tica (LLI-UAM, http://www.lllf.üam.es) es ün grüpo de investigacioí n reconocido por la UAM qüe tiene süs oríígenes a mediados de los anñ os 80. Fündado por el Prof. Francisco Marcos Maríín con ün grüpo de estüdiantes de doctorado, a partir de sü experiencia en el Centro de Investigacioí n de IBM en Espanñ a. La fündacioí n como tal del LLI se prodüjo con la participacioí n del grüpo en el proyecto eüropeo de tradüccioí n aütomaí tica EUROTRA (diciembre 1987 a diciembre de 1992). Desde entonces, el grüpo cüenta con espacio permanente en la Facültad de Filosofíía y Letras de la UAM (http://www.lllf.üam.es/ESP/images/mapalab.jpg), ün servidor web propio y ün teí cnico informaí tico como administrador de sistemas. La primera etapa del Laboratorio, bajo la direccioí n del Prof. Marcos Maríín, se repartioí entre dos lííneas de investigacioí n: las hümanidades digitales y la lingüü íística compütacional basada en corpüs. Gracias al patrocinio de la Sociedad Estatal del Qüinto Centenario, entre 1990 y 1992 se compilaron recürsos digitales pioneros en 1 Espanñ a como ADMYTE (Archivo Digital de Manüscritos y Textos Electroí nicos) o CORLEC (Corpüs Oral de Referencia de la Lengüa Espanñ ola Contemporaí nea). En la líínea maí s compütacional, dentro de la deí cada de los noventa, se realizoí la parte espanñ ola del proyecto eüropeo CRATER (Corpüs Resoürces And Terminology ExtRaction, 1994-95), qüe prodüjo ün corpüs paralelo trilingüü e de ün milloí n de palabras, anotado morfosintaí cticamente y alineado a nivel de oracioí n. Tambieí n destacan los proyectos en correccioí n gramatical aütomaí tica (GramCheck y CONTTEXT), dirigidos por Fernando Saí nchez y Flora Ramíírez. Entre 1997 y 2000 se compiloí el primer corpüs anotado sintaí cticamente del espanñ ol, el UAM Spanish Treebank, financiado por la New York University y dirigido por Antonio Moreno Sandoval. Paralelamente, se realizaron otros proyectos menores con distinta financiacioí n (CICYT, Anaya, Acciones Integradas Hispano-Alemanas) centrados en diccionarios electroí nicos. Desde 1996, Fernando Saí nchez empezoí a colaborar con la RAE en la creacioí n del corpüs CREA y en 2001 se incorporoí definitivamente como director del Departamento de Tecnologíías Lingüü íísticas de la institücioí n acadeí mica. Un anñ o antes, en 2000, Flora Ramíírez dejoí el LLI para ünirse al grüpo de lingüü íística compütacional en espanñ ol de Microsoft, en Redmond, Estados Unidos. En esos mismos anñ os, el Prof. Marcos Maríín ocüpoí el püesto de Director Acadeí mico del Institüto Cervantes y posteriormente üna caí tedra en Roma-La Sapienza, lo qüe en la praí ctica süpüso sü aüsencia en la participacioí n en los proyectos del grüpo hasta sü jübilacioí n en 2006. La vincülacioí n del fündador con el LLI se ha mantenido todos estos anñ os. La segünda etapa del LLI-UAM comenzoí con el proyecto eüropeo C-ORAL-ROM (2001-2004) ya bajo la direccioí n de Antonio Moreno Sandoval. Este corpüs oral süpüso ün pünto de inflexioí n en los recürsos elaborados por el LLI y ha marcado el modelo de los otros corpüs elaborados posteriormente (Moreno Sandoval 2002 describe la evolücioí n entre CORLEC y C-ORAL-ROM). El grüpo de becarios qüe se formoí en el proyecto eüropeo lüego continüaron con tesis doctorales qüe expandieron la anotacioí n del corpüs original (en concreto, anaí lisis semaí ntico eventivo, Manüel Alcaí ntara, y pragmaí tico discürsivo, Ana Gonzaí lez) o crearon nüevos corpüs: CHIEDE (corpüs de habla infantil, Marta Garrote), CORELE (corpüs oral de aprendices de espanñ ol, Leonardo Campillos), CORAF (corpüs oral de aprendices de franceí s, Ana Valverde). Al tiempo qüe se desarrollaban estos recürsos en espanñ ol, el Laboratorio se internacionalizoí con la incorporacioí n de becarios extranjeros con ayüdas de la AECID para realizar süs tesis en Espanñ a: Doaa Samy, procedente de la Univ. de El Cairo, inaügüroí en 2005 las tesis en otras lengüas, en concreto el aí rabe, qüe se convertiríía desde entonces en üna de las lengüas de trabajo del LLI. Alicia Gonzaí lez desarrollaríía posteriormente ün analizador morfoloí gico del verbo en aí rabe (en 2013) sigüiendo la tradicioí n de los analizadores morfoloí gicos iniciada por Moreno y Saí nchez en los 90. Las lengüas china y japonesa se incorporaron despüeí s al cataí logo de corpüs orales (C-ORALCHINA y C-ORAL-JAPON, respectivamente), qüe dieron lügar a las tesis de Yang Dong (2012) y Emi Takamori (2014). El LLI-UAM ha desarrollado üna metodologíía de elaboracioí n de corpüs de habla espontaí nea como ün proceso sistematizado y se ofrece como ün servicio de asistencia teí cnica entre el cliente y el LLI, gestionado a traveí s de la Fündacioí n UAM. El trabajo inclüye todas las etapas del desarrollo desde el disenñ o del corpüs, la 2 captüra de los datos y el posterior anaí lisis, anotacioí n y enriqüecimiento de la coleccioí n. Disenñ o preliminar teniendo en cüenta las caracteríísticas socio-lingüü íísticas (edad, sexo, datos demograí ficos, origen lingüü íístico, edücacioí n, etc.) y el contexto comünicativo. Esta informacioí n püede modificarse en füncioí n de los objetivos del estüdio y el disenñ o püede adaptarse a las variables a considerar. Recoleccioí n de datos (grabaciones, captüras de video, edicioí n). Transcripcioí n ortograí fica (indicando tanto la variante normativa como la enünciacioí n real). Anotacioí n prosoí dica, marcas de paüsa, alargamientos vocaí licos, solapamientos, interrüpciones, entonacioí n, etc. Alineamiento de ünidades de texto-sonido en enünciados. Anotacioí n morfoloí gica semi-aütomaí tica (informacioí n morfoloí gica y lemas), con revisioí n manüal por especialistas. Anotacioí n fonoloí gica aütomaí tica. Un ejemplo de esta metodologíía se püede comprobar con el corpüs MAVIR (http://www.lllf.üam.es/ESP/CorpüsMavir.html), encargado por el consorcio madrilenñ o del mismo nombre y qüe recoge üna coleccioí n de grabaciones de sonido y víídeo de conferencias sobre temas de tecnologíía informaí tica, en espanñ ol e ingleí s, con süs correspondientes transcripciones. 3 En la misma líínea de elaboracioí n de recürsos para tecnologíías del habla, hemos recogido ün corpüs de grabaciones de moí viles para la empresa espanñ ola Sigma Technologies y ofrecemos en líínea üna peqüenñ a base de datos acüí stica con pregüntas en cüatro lengüas (espanñ ol, aí rabe, japoneí s y thai). Desde 2011 hemos vüelto a los corpüs escritos: el proyecto MültiMedica (financiado por el MINECO) nos ha permitido compilar ün corpüs de textos meí dicos en espanñ ol, japoneí s y aí rabe y desarrollar üna herramienta de consülta en líínea, qüe ofrece ademaí s ün extractor aütomaí tico de teí rminos meí dicos en las tres lengüas. Hasta la fecha, es nüestro recürso maí s elaborado pües combina la compilacioí n de los corpüs, el procesamiento morfoloí gico, la indexacioí n para la consülta, el desarrollo de los repertorios terminoloí gicos y, por üí ltimo, la creacioí n de reglas para extraccioí n de candidatos a teí rmino. Todo ello en tres lengüas müy distanciadas geneí tica y tipoloí gicamente, con sistemas de escritüra müy dispares. El resültado se püede consültar en http://www.lllf.üam.es/ESP/Mültimed.html. La investigacioí n del LLI en los proí ximos anñ os continüaraí esta líínea de trabajo en corpüs textüales especializados, sin abandonar las lííneas en corpüs orales y en lengüas asiaí ticas. En concreto, Carlos Herrero (becario FPI) estaí preparando sü tesis sobre anotacioí n de la negacioí n y la modalidad en los corpüs orales de espanñ ol y japoneí s. Yüanyi Liü (becaria del Gobierno chino) realiza üna tesis contrastiva entre espanñ ol y chino dentro del contexto de la tradüccioí n. La lista completa de proyectos realizados dürante estos 25 anñ os de existencia del LLI-UAM se püede consültar aqüíí. La sigüiente tabla resüme los recürsos lingüü íísticos desarrollados disponibles. RECURSO CORLEC Corpus Oral de Referencia de la TIPO Corpüs USO Libre CARACTERÍSTICAS Base de datos textüal (corpüs de lengüa oral): 1.100.000 de palabras transliteradas en soporte informaí tico. 4 Lengua Española Contemporánea Corpus de Referencia de la Lengua Española en la Argentina Corpus de Referencia de la Lengua Española en Chile Corpüs Corpüs Spanish Treebank Corpus Corpüs C-ORAL-ROM Corpüs Libre Base de datos textüal (corpüs de lengüa escrita): maí s de 2.000.000 de palabras Libre Base de datos textüal (corpüs de lengüa escrita): 2.000.000 de palabras 1.500 oraciones extraíídas de Libre perioí dicos y anotadas sintaí cticamente Corpüs oral mültilingüü e espanñ ol-franceí s-portügüeí sRestringido italiano con 300.000 palabras en cada lengüa CHIEDE Corpus de Habla Infantil Espontánea del Español Corpus Oral de Español como Lengua Extranjera Corpus Oral de Aprendientes de Francés GRAMPAL Corpus Árabe-Español Corpüs Libre Corpüs Libre Corpüs Libre Programa Restringido Corpüs Diccionario EspañolDiccionario Francés JAPONÉS Libre Libre Corpüs y Restringido diccionario Corpus MAVIR Corpüs Restringido Base de datos acústica de preguntas Base de datos Restringido Analizador morfológico de árabe Programa Libre Corpüs oral de lengüaje infantil con alrededor de 60.000 palabras Corpüs oral de interlengüa de estüdiantes de espanñ ol con maí s de 50.000 palabras. Corpüs oral de interlengüa de aprendientes de franceí s con maí s de 61.000 palabras. Etiqüetador morfosintaí ctico. Corpüs paralelo aí rabe-espanñ ol con 1179 oraciones Diccionario de dificültades de üso de las preposiciones en el idioma franceí s Corpüs oral del japoneí s de ünas 50.000 palabras y diccionario de las 800 palabras baí sicas del japoneí s con sonido. Corpüs oral en el qüe se recopilan las conferencias de las Jornadas MAVIR. Coleccioí n de pregüntas orales recopilada a partir de la participacioí n en el CLEF Demo 5 Colaboraciones con otros grupos de investigación Desde sü fündacioí n, el LLI-UAM ha mantenido üna estrecha vincülacioí n con diferentes grüpos nacionales e internacionales. El Centro de Investigacioí n de IBM en Madrid y los eqüipos eüropeos del proyecto EUROTRA marcaron la primera líínea de internacionalizacioí n: Marcos Maríín y sü relacioí n con el centro alemaí n de IBM en Heidelberg; Moreno Sandoval con sü participacioí n en ün proyecto con IBM Süecia; Saí nchez Leoí n y Ramíírez Büstamante con el grüpo alemaí n de EUROTRA en Saarbrüecken. La estancia postdoctoral de Moreno en el grüpo dirigido por el prof. Ralph Grishman en la NYU dürante los anñ os 1991 y 1992 ha süpüesto sin düda üna prodüctiva líínea de colaboracioí n (por ejemplo, el UAM Treebank), qüe ha continüado hasta el presente con estancias cortas de Grishman y Sekine en el LLI, financiadas por el consorcio MAVIR. A mediados de los 90, los catedraí ticos Francisco Marcos y Reinhold Werner (Aügsbürgo, Alemania) promovieron la colaboracioí n entre investigadores de ambos eqüipos, en temas relacionados con diccionarios electroí nicos. Claüdio Chüchüy visitoí Madrid en varias ocasiones y Antonio Moreno pasoí ün verano en la üniversidad baí vara, donde se familiarizoí con la lexicografíía aplicada en ün centro de referencia internacional en elaboracioí n de diccionarios. Desgraciadamente, esa colaboracioí n no se ha mantenido en el tiempo. El proyecto C-ORAL-ROM süpüso otra nüeva oportünidad de establecer colaboraciones con grüpos eüropeos, en este caso, con las Universidades de Florencia, Aix-en-Provence y Lisboa. Dürante la primera deí cada del nüevo milenio los intercambios y estancias de investigadores de Madrid y Florencia füeron flüidos, lo qüe redündoí en üna mejor formacioí n de los investigadores maí s joí venes. Los intercambios continüí an, ahora a traveí s de programa Erasmüs+. Ya comentamos qüe la segünda etapa del LLI se ha beneficiado de la visita de investigadores extranjeros qüe han venido a realizar süs tesis o süs estancias de investigacioí n al Laboratorio. Lügar destacado ocüpa Doaa Samy, iniciadora de las investigaciones con el aí rabe estaí ndar moderno. La Dra. Samy ha pasado largas temporadas en Madrid desde 2001. En 2009, Moreno y Samy organizaron conjüntamente el primer Encuentro Hispano-Egipcio sobre procesamiento automático y recursos lingüísticos en español y árabe, en la Universidad de El Cairo, donde reünieron investigadores de distintas üniversidades de Espanñ a y Egipto. Como früto de este encüentro, se logroí firmar ün convenio de cooperacioí n entre la UAM y El Cairo para el intercambio de investigadores. Las relaciones con las üniversidades japonesas comenzaron en 2004, cüando ün eqüipo de la Univ. de Estüdios Extranjeros de Tokio (TUFS en el acroí nimo en ingleí s), dirigido por el Prof. Toshihiro Takagaki visitoí el Laboratorio. Posteriormente, los investigadores principales de todos los grüpos de C-ORALROM füimos invitados a üna conferencia organizada por TUFS en 2005. En 20092010, gracias a ün proyecto financiado por el Banco Santander y la UAM, püdimos 6 visitar Tokio para recoger las grabaciones qüe componen el corpüs C-ORAL-JAPON. En 2013-14 hemos tenido otro proyecto similar con la Universidad de Tokio y el profesor Hiroto Ueda. En este caso, el tema del proyecto es trabajar en anaí lisis lingüü íísticos sobre el espanñ ol basado en recürsos en formato electroí nico desarrollado por ambos eqüipos. La relacioí n con las üniversidades chinas es maí s reciente. A traveí s de la Prof. Taciana Fisac, qüe dirige el Centro de Estüdios de Asia Oriental en la UAM, entroí en contacto con nosotros Yang Dong, de Beijing International Stüdies University (BISU), para realizar üna tesis sobre ün corpüs oral de chino mandaríín para estüdiantes espanñ oles. La tesis, defendida en 2012, dio lügar proyecto conjünto entre UAM y BISU para elaborar materiales didaí cticos para la ensenñ anza del chino a partir del corpüs. El libro estaí en impresioí n y apareceraí en 2015. Otra nüeva relacioí n, esta vez con Beijing Foreign Stüdies University (BFSU), se han establecido a partir de ün seminario impartido por el prof. Moreno en jünio de 2013 en Pekíín. Desde octübre de 2014, nos visita Yüanyi Liü, profesora ayüdante de BFSU, para üna estancia predoctoral de tres anñ os. Entre los grüpos espanñ oles, debemos mencionar, por orden de antigüü edad, la relacioí n con la Dra. Nüí ria Bel, de la UPF, con la qüe mantenemos relacioí n discontinüí a desde los tiempos de EUROTRA. El üí ltimo contacto ha sido la infraestrüctüra CLARIN. Maí s estable ha sido la colaboracioí n con el eqüipo dirigido por Joseí Carlos Gonzaí lez, de la UPM y de la empresa tecnoloí gica Daedalüs. Un relacioí n qüe comenzoí en 1993 y ha continüado en nümerosos proyectos conjüntos. De similar antigüü edad es la colaboracioí n con el grüpo de Bases de Datos Avanzadas (LaBDA) de la UC3M, dirigido por Paloma Martíínez. La Dra. Martíínez en los 90 trabajoí en el proyecto GramCheck con F. Saí nchez y F. Ramíírez. Desde 2004, el LLI y el LaBDA han participado en tres proyectos nacionales coordinados (inclüyendo el proyecto MültiMedica) y dos proyectos de la Comünidad de Madrid (el consorcio MAVIR). El LLI mantiene üna flüida colaboracioí n con diferentes investigadores y profesores de los Departamentos de Ingenieríía Informaí tica e Ingenieríía de Telecomünicacioí n en el campüs de Cantoblanco. Entre otros, hemos realizado investigaciones conjüntas con Enriqüe Alfonseca (en Google desde 2007), Doroteo Torre Toledado, Daniel Tapias, Pablo Castells o Jordi Porta. Desde diciembre de 2009, el LLI colabora con el Institüto de Ingenieríía del Conocimiento, institücioí n privada de I+D+i sin aí nimo de lücro, sita en el campüs de la UAM. Algünos de los investigadores del IIC coincidieron con Moreno en el Centro de Investigacioí n de IBM. En la actüalidad, Alicia Gonzaí lez y Antonio Moreno investigan en el anaí lisis de opinioí n y contenido en las redes sociales, asíí como en temas de tratamiento estadíístico de textos. Un früto interesante de esta colaboracioí n es la aplicacioí n gratüita Anaí lisis Comparativo de Leí xico (http://innova.iic.üam.es/acl/) qüe permite comparar dos textos cüalqüiera y extraer las palabras distintivas, sü frecüencia de aparicioí n y la riqüeza leí xica. 7 Dejo para el üí ltimo lügar la colaboracioí n maí s importante y früctíífera de los üí ltimos 15 anñ os: la participacioí n del Dr. Joseí Maríía Güirao, de la Universidad de Granada, como miembro del eqüipo en sü calidad de programador senior. Sü primera colaboracioí n füe la reimplementacioí n del analizador GRAMPAL, para convertirlo en üna herramienta en líínea (http://cartago.lllf.üam.es/grampal/grampal.cgi). Desde 2002 ha disenñ ado la estrüctüra de los distintos interfaces de consülta a los corpüs, asíí como la süpervisioí n de la mayoríía de los programas qüe se han escrito en el LLI. Publicaciones y recursos electrónicos destacados Filología digital 1. Marcos Maríín, F. (1987): Libro de Alexandre. Madrid, Alianza Universidad. [Es la primera edicioí n ünificada de üna obra medieval espanñ ola preparada con la ayüda de ün programa informaí tico (UNITE).] 2. Marcos Maríín, F. (1994): Informática y Humanidades. Madrid, Gredos. [Presenta el estado de cüestioí n del üso de ordenadores para estüdios filoloí gicos y lingüü íísticos desde mediados de los ochenta a mediados de los noventa. Es üna obra qüe tiene intereí s historiograí fico.] 8 3. Marcos Maríín, F., Faülhaber, Ch., Goí mez Moreno, AÁ . y Cortijo Ocanñ a, A. ADMYTE: Archivo Digital de Manuscritos y Textos Medievales. Micronet. (versioí n en líínea: http://www.admyte.com/presentacion.htm). [Contiene las transcripciones de 290 obras redactadas en espanñ ol, o en cüalqüiera de süs dialectos, a lo largo de la Edad Media, süperando las 54.000 paí ginas . Es ün corpüs imprescindible para los estüdios de historia del espanñ ol, pües jünto a las obras maestras como el Cantar de mio Cid o la Tragicomedia de Calisto y Melibea, se püeden consültar ün cataí logo sorprendente de enciclopedias, diccionarios, gramaí ticas, novelas de caballeríías, croí nicas, biografíías y tradücciones de claí sicos grecolatinos, aí rabes y hebreos.] Lingüística computacional 1. Moreno Sandoval, A. (1993): Un modelo computacional basado en la unificación para el análisis y generación de la morfología del español. Servicio de Püblicaciones de la UAM. [Disponible a traveí s de https://repositorio.uam.es/xmlui/handle/10486/12294.] 2. Moreno Sandoval, A. (1998): Lingüística computacional: introducción a los modelos simbólicos, estadísticos y biológicos. Madrid, Sííntesis. [Uno de los primeros manüales sobre el tema, escrito en espanñ ol. Presenta el estado de la cüestioí n en los 90.] 3. Moreno Sandoval, A. (2001): Gramáticas de unificación y rasgos. Madrid, Antonio Machado Libros. 4. Moreno Sandoval, A. y Güirao, J.M. (2006): “Morpho-syntactic Tagging of the Spanish C-ORAL-ROM Corpüs: Methodology, Tools and Evalüation”. En Spoken Language Corpus and Linguistic Informatics, John Benjamins. 5. Moreno Sandoval, A. y Güirao, J.M. GRAMPAL: analizador morfosintáctico del español. Versioí n en líínea: http://cartago.lllf.üam.es/grampal/grampal.cgi. [Es üno de los primeros analizadores de espanñ ol, con maí s de 20 anñ os de desarrollo. Tiene versiones adaptadas a la lengüa oral y a la escrita.] 6. Gonzaí lez Martíínez, A. (2013): JABALIN: A computational model of Modern Standard Arabic verbal morphology based on generation. Tesis doctoral. https://repositorio.üam.es/bitstream/handle/10486/660335/gonzalez_martinez_alicia.pdf? seqüence=1. El acceso a la aplicacioí n es: http://elvira.lllf.üam.es/jabalin/ Lingüística de corpus 1. Moreno Sandoval, A., Loí pez, S., Saí nchez, F. y Grishman, R. (2003): “Developing a syntactic annotation schema and tolos for a Spanish Treebank”. En Abeilleí (ed.) Treebanks: building and using a parsed corpora. Dordrecht, Klüwer. [Referencia bibliograí fica donde se explica coí mo se compiloí y anotoí el UAM Spanish Treebank.] 9 2. Moreno Sandoval, A, G. de la Madrid, M. Alcaí ntara, A. Gonzaí lez, J.M. Güirao, y R. de la Torre (2005). “The Spanish corpüs”. En Cresti y Moneglia (eds.) CORAL-ROM: Integrated Reference Corpora for Spoken Romance Languages. [Este capíítülo describe el corpüs espanñ ol de C-ORAL-ROM y en especial los criterios de transcripcioí n y anotacioí n morfosintaí ctica.] 3. Campillos Llanos, L., Gozalo, P., Güirao, J.M. y Moreno Sandoval, A. (2010): Español oral en contexto. Vol. 1. Textos de español oral. Material de ELE basado en corpus. Madrid, Servicio de Püblicaciones UAM. [Este libro contiene üna seleccioí n de 200 fragmentos del corpüs C-ORAL-ROM especialmente escogidos para realizar ejercicios de comprensioí n oral . En este enlace se püeden consültar algünos docümentos http://www.lllf.üam.es/ESP/CORALROM_ELE/Coralrom_ELE.html] de müestra: 4. Campillos Llanos, L. “A Spanish leaner oral corpüs for compüter-aided error anaí lisis”. Corpora, 9(2): 207–238. [Aplicacioí n en líínea para consülta http://cartago.lllf.üam.es/corele/home_es.html] del corpüs en 5. Moreno Sandoval, A., y L. Campillos Llanos (2012) "MAVIR: a corpüs of spontaneoüs formal speech in Spanish and English".. En Torre Toledano, D., A. Ortega, A. Teixeira, J. Gonzaí lez Rodríígüez, L. Hernaí ndez Goí mez, R. San Segündo, y D. Ramos Castro (eds.) Actas de IberSPEECH 2012, Madrid, UAM. 6. Moreno Sandoval, A., L. Campillos Llanos, C. Herrero Zorita, J. M. Güirao Miras, A. Gonzaí lez Martíínez, D. Samy y E. Takamori (2014) "An online tool for enhancing NLP of a biomedical corpüs". 6º Congreso Internacional de Lingüística de Corpus CILC 2014. Las Palmas de Gran Canaria, 22-24 de mayo de 2014. [Visioí n general sobre el corpüs MültiMedica.] 10 Copyright © 2014 Las dos vidas de las palabras. Todos los derechos reservados 11