Presentación de PowerPoint
Transcripción
Presentación de PowerPoint
CORDIAM: cuatrocientos años de historia del español en América Virginia Bertolotti (Universidad de la República, Uruguay) Concepción Company Company Academia Mexicana de la Lengua Universidad Nacional Autónoma de México C O N TAC T , VAR IAT I O N AN D C HAN G E : c o r p o r a d e v e l o p m e n t a n d a n a l y s i s o f I b e r o -R o m a n c e l a n g u a g e v a r i e t i e s 1. Presentación Motivación para crear CORDIAM • Casi 90% de la población hispanohablante nativa es americana • Gramáticas y obras generales (casi) no incorporan diacronía del español de América (algo de sincronía) • No existen descripciones lingüísticas de la mayoría de los países hispanohablantes americanos • Hay algunos estudios lingüísticos de conjunto para español americano con breves apuntes históricos 3 1. Presentación Motivación para crear CORDIAM • NO se incorpora diacronía por ¿desinterés? o ¿falta de información documental histórica fácilmente accesible? • Ya: numerosos esfuerzos filológicos y ecdóticos individuales • Ya: bastantes colecciones documentales diacrónicas americanistas publicadas y algunos materiales en red • NO hay un corpus en red de documentación americana que abarque diacronía amplia y diatopía amplia 4 2. ¿Qué es CORDIAM? Características de CORDIAM • Corpus de corpus • Infraestructura para la investigación • Documentos americanos exclusivamente • No literarios y no periodísticos: inmediatez comunicativa • Recabados directamente de archivo • Profundidad histórica de 400 años: 1493-1904 • Los 19 países hispanohablantes de América + EEUU (Nueva España), Jamaica, Haití, Guyana, 5 2. ¿Qué es CORDIAM? Características de CORDIAM • • • • • • • • Cantidad de documentos a la fecha: 3185 Universo de palabras actual: 4700000 aprox Corpus en red de acceso libre (alojado en la AML) Informatizado y con un sistema de búsqueda y procesamiento diseñado para el análisis lingüístico Plantilla de metadatos asociados de relevancia lingüístico-histórica (diferencia con otros corpus) Sistematización informática de documentos Abierto a pruebas en mayo de 2014 Apertura general en febrero de 2015 6 3. Finalidad de CORDIAM • Hacer la historia del español de América • En todos los niveles de lengua (acceso al facsímil) • Historia externa: conocer trayectorias históricas y • • • • migratorias (plantilla de metadatos) Hacer una dialectología histórica del español América Hacer una Gramática Histórica del Español general sin calificativos restrictivos dialectales, o con los adjetivos restrictivos dialectales pertinentes para el fenómeno Enriquecer conocimiento empírico y teórico de Lingüística Histórica Estudiar fenómenos de contacto de lenguas 7 4. La construcción de CORDIAM • Con la colaboración de investigadores americanos, europeos y norteamericanos que han autorizado el uso informático de sus materiales y han elaborado en parte los metadatos • Con un equipo de jóvenes filólogos (AML/UNAM) 8 Programa CORDIAM EQUIPOS DE DESARROLLO Y DISEÑO CORDIAM es desarrollado por dos investigadores del Instituto Politécnico Nacional (México) • Alexander Gelbukh: http://www.gelbukh.com/ • Grigori Sidorov: http://www.g-sidorov.org/ La interfaz gráfica de CORDIAM es desarrollada por un despacho de diseño • Cantera: www.scientika.mx [email protected] Programa CORDIAM 9 5. Documentos de CORDIAM • Archivos y/o fondos documentales: 58 • Siglo y año: XV-XX, 1493-1904 • Nacidos en América, excepto siglo XVI y las zonas de poblamiento tardío • Adscripción política geográfica actual: país y lugar • Adscripción administrativa histórica: • Virreinato (4) • Audiencias • Capitanías • Gobernación Titulo de la página 10 7. Sistematización informática FACSÍMIL VS TRANSCRIPCIÓN La transcripción para un corpus electrónico no puede ser una reproducción fotográfica del original. Algunos intentos de reproducir fielmente el documento resultan en transcripciones poco funcionales y confusas para búsquedas electrónicas Regularización de transcripciones dudosas • y con juan / nunz de herrª → minz → martinez • y supuco a su md y a los demas mis señores relyxosos → suplico • abnque → aunque bna → una [email protected] 13 7. Sistematización Informática ¿Qué problemas se generan por falta de sistematicidad informática? • Pérdida de información léxica • Confusión para el usuario • Complicación en las búsquedas Por lo tanto, la transcripción de los documentos para su uso electrónico deben seguir criterios claros y homogéneos [email protected] 14 8. Características Filológicas II: el documento y su contexto METADATOS • Nombre • Siglo • Año • Autor (datos étnicos) • Autor (hombre o mujer) • País actual • Topónimo actual • Topónimo histórico [email protected] Características filológicas 15 8. Características Filológicas II: el documento y su contexto METADATOS • Adscripción histórica • Archivo • Tipo textual • Número de folios • Número de palabras • Créditos • Facsimilar disponible • Síntesis [email protected] Características filológicas 16 8. Datos externos • • • • • • Nombre Archivo Número de folios Número de palabras Créditos Facsimilar disponible 17 8. Datos lingüísticos • • • • • • • • Siglo Año Autor (datos étnicos) Autor (hombre o mujer) País actual Topónimo actual Topónimo histórico Tipo textual 18 9. Características informáticas FUNCIONES DEL MOTOR DE BÚSQUEDA • • • • • • • • • Búsquedas básicas por palabra Búsquedas de construcciones Búsquedas avanzadas por metadatos Búsqueda lematizada Puede o no distinguir mayúsculas Puede buscar palabras adyacentes Puede ordenarse por siglo, por país o por documento Puede hacer búsquedas aleatorias Despliega frecuencias: ocurrencias/número de documentos/universo de palabras [email protected] Características informáticas 19 9. Características informáticas OPERADORES LÓGICOS DEL MOTOR DE BÚSQUEDA • * : Cero o más letras: a. “cu*a” Buscar palabras con cualquier número de letras en la posición: cura, cuchara, cuenta, curva, cuba… b. “aunque * venga” Buscar dos palabras, con cualquier otra palabra entre ellas c. “*mente” Buscar una palabra terminada en –mente con cualquier número de letras antes [email protected] Características informáticas 20 9. Características informáticas DESPLIEGE DE RESULTADOS • Barra lateral (tamaño ajustable) • Selección por documento • Marcar, borrar, mantener • Ventana emergente con metadatos básicos por concordancia • Vista de ejemplo sin salir de la página de concordancias [email protected] Características informáticas 21 9. Características informáticas IMPORTACIÓN Y CUENTAS DE USUARIO • Exportación (Word, Excel, e-mail, guardar en la canasta) • Cuenta de usuario • Gestión de carpetas por investigación (sólo usuarios registrados) [email protected] Características informáticas 22 10. Fases de CORDIAM DESARROLLADAS • Motor de búsqueda • Motor de búsqueda parcialmente lematizado • Búsqueda avanzada • Imagen [email protected] Fases de CORDIAM 23 10. Fases de CORDIAM PREVISTAS PARA DESARROLLO • Exportación • Cuentas de usuario • Facsímil • Búsqueda en el facsímil • Localización geográfica de documentos (Mapas) • Datos cuantintativos [email protected] Fases de CORDIAM 25 11. Tipología textual para CORDIAM Problema 1: Adscripción textual en base a clases y géneros • • • • • • • • • • • Cartas entre particulares Cartas oficiales Descripciones geográficas Relaciones de sucesos Actas de cabildo Probanzas de méritos Juicios civiles Juicios de residencia Capitulaciones Informes Memoriales de méritos • etc., etc., etc. • Inventarios de barcos • Inventarios de bienes de difunto • Notas, billetitos y recados • Testamentos • Testimonios en juicios • Docs. diversos probatorios en ju. • Bandos • Decretos • Denuncias / Querellas • Sentencias • Nombramientos 26 11. Tipología textual de CORDIAM Problema 2: Riesgo de atomización en búsquedas • Resultados cuantitativos muy pobres • Corpus “pequeño” cuantitativamente para un corpus electrónico • Requisitos por el volumen del corpus: • Pocos agrupamientos • Agrupamientos grandes con “homogeneidad” interna • Etiquetas generales que respeten el funcionamiento de la administración americana virreinal / colonial 27 11. Tipología textual de CORDIAM Preguntas de investigación para la propuesta tipológica • Reflexión e investigación sobre propuestas antecedentes: Biber (1986); Biber y Conrad (2008); Koch y Oesterreicher (1990); Oesterreicher (1996), entre otros • No sirven de mucho para CORDIAM porque toman ángulos de taxonomía distintos de cómo se construye la administración americana: ‘inmediatez comunicativa’, ‘interactivo-editado’, contenido ‘abstracto-situado’, ‘dialógicos-no dialógicos’, etc. • ¿Qué buscaría un usuario en una tipología de un corpus en red? = Recurrencias estructurales lingüísticas: usus scribendi, gramaticales, léxicas y semánticas–pragmáticas, hasta cierto punto diferentes según grupos / tipos textuales 28 11. Tipología textual de CORDIAM • Propuesta de tipología textual • Eje taxonómico divisorio: tipo de circulación del documento y cómo llega a un archivo; grosso modo es un eje-continuum con fronteras no nítidas, pero con base empírica fuerte y bastante homogeneidad estructural interna = Más privado > Más público • Cuatro tipos (con 48 subclases en total) • Documentos entre particulares: cartas y otros • Cronísticos • Jurídicos • Administrativos 29 11. Ejes que guiaron la clasificación • Es una clasificación-guía de lo lingüísticamente “esperable”: léxico diferente; sintaxis diferente (mayor o menor uso de subordinación, estilo directo o no, tipos de anáforas, etc.); morfología diferente (sistemas pronominales), etc. • No es una tipología textual en abstracto de clases de textos, sino que tiene 4 bases empíricas: lingüística-estructural, ecdótica, temática y curso de la documentación • La clase 1 llega a los archivos por azar (no siempre es así, límites borrosos y complejos), las otras 3 son parte integral de las estructuras administrativas y jurídicas de la América Española • Cuanto más grande y heterogénea es en apariencia la clase, más homogénea-empaquetada y sencilla de adscribir a los criterios / parámetros expuestos 30 11. Muestra de tipos textuales 1. Documentos entre particulares Mi mas estimada y querida esposa de / mi corazon me alegrare que al rresibo desta / te alles con la salu que yo para mi deseo / en conpañia, de mis dos amadas iJas de mi corason / y de tu familia y mia / la que yo difruto es buena para que me mandes / que lo are como me toca de obligasion 2. Cronísticos Y / así diçen que los vnos salieron de qüebas, los otros de çerros, /25 y otros de fuentes, y otros de lagunas y otros de pies de árboles, / y otros desatinos desta manera; y que por auer salido y enpeçado / a muntiplicar destos lugares y auer sido de allí el prinçipio / de su linaje, hizieron guacas y adoratorios estos lugares / en memoria del primero de su linaje que de allí proçedió; /30 y así cada nación se uiste y trae el traje con que a su guaca / uestían. 31 11. Muestra de tipos textuales 3. Jurídicos yo Jose Candido Baes besino de el pueblo de antimano y residente de la Ciudad de San Felipe / Ante V paresco y digo que el rreo nombrado ylario Silba es un honbre que me a sentensiado a muerte con una lansa que a sacado en mi misma casa y por no aber tenido los testigo (sic) no me presente ante V y de contra A una muJer que tengo en mi Casa a sacado un puñal para matarla en la casa de el Señor Miguel Bara por un pique que tie <inter: ne> con hella por una mujer que el tenia y llo la hise salir de el Sitio de Carapa y por Cullo motivo Cuantas beses pasa por mi casa a distintas horas de la noche se benga Con pegar un astaso a las tiJas de mi CoRedor que estan a la bista las tiJas quebradas en dicho Coredor 4. Administrativos Muy magnífico señor: / El que la presente lleva es Juan Freyle, que / a servido en esta haçienda de varvero para curar / los enfermos. El qual començó a servir dende /5 quinçe de março, año de 1556 años. Sirvió hasta / quinçe de nobienbre del dicho año. Ganava a raçón / de çien pesos de minas cada año, que ansí estava / conçertado. Dévensele ocho meses como pareçerá / el asiento por el libro de la contaduría. 32