Descargar versión PDF - Posgrado en Ciencias y Tecnologías de la
Transcripción
Descargar versión PDF - Posgrado en Ciencias y Tecnologías de la
Proyecto de investigación para la MCyTI 1. Nombre del proyecto Construcción de índices semánticos para el intercambio abierto de recursos basado en contenidos. 2. Responsable(s) Dra. Reyna Carolina Medina Ramírez 3. Perfil deseable del alumno El alumno(a) participante en este proyecto debe tener conocimientos de redes de computadoras. 1 Estar interesado en los elementos de la Web semántica (ontologías , anotaciones, datos abiertos); así como, mostrar facilidad para la programación y la lectura de artículos en inglés. 4. Presentación del contexto e identificación de la problemática La información en la web es vasta y heterogénea tanto en contenido como en formato, metodologías de representación y almacenamiento de la información gestionada, así como algoritmos y sistemas de búsqueda, han sido propuestos e implementados con éxito. Sin embargo el enfoque utilizado todavía no ha explotado la naturaleza de los recursos existentes (significado en función de un contexto, vínculos entre los datos existentes en los documentos). Una memoria organizacional comparte varias características y problemas similares con la Web en general, la única diferencia es el volumen de documentos a ser gestionados e interrogados. Una memoria corporativa, es la representación explíta de los conocimientos de una organización materializados en lo que se conoce como recursos. Los recursos pueden ser personas y/o documentos heterogéneos, tanto en contenido como en formato. Entre los diversos enfoques para gestionar estos recursos, se encuentra el enfoque de la Web semántica [Berners-Lee01] dando origen a las memorias semánticas corporativas (MSC). El contenido semántico de tales recursos es un factor importante a considerar para fines de almacenamiento, búsqueda e intercambio [Alarcón14, Rios09]. Cabe mencionar que los recursos de una MSC pueden estar distribuidos. Por otro lado, Los “datos vinculados” (linked data) es una propuesta del World Wide Web Consortium (W3C) para publicar datos estructurados en la Web, permitiendo así, conexiones (vínculos) entre ellos y ser más útiles para el usuario. Se trata de un enfoque que a diferencia de la vinculación de páginas que se tiene actualmente en la Web, se va a un nivel fino de la información, es decir, al nivel de los datos encapsulados en las páginas; estableciendo vínculos. Este enfoque es relativamente reciente y ha mostrado algunos avances: proponer estándares para la descripción de recursos (RDF, por sus siglas en inglés), recomendaciones para la índices semánticos para el intercambio abierto de recursos basado en contenidos Página 1 1 publicación de datos , por mencionar algunos. Sin embargo, existe todavía investigación al respecto en la búsqueda de información “vinculada” como: La identificación de tareas y paradigmas de los sistemas de búsqueda semántica (vinculada), algoritmos para evitar la ambigüedad de términos, marcos de referencia para la generación automática de descripciones semánticas (annotations), paradigmas de consulta para sistemas de búsqueda semántica, aplicaciones del aprendizaje maquinal, el procesamiento del lenguaje natural y técnicas de extracción de información en el contexto de búsqueda semántica, son sólo algunas. Por lo anterior, se desea proponer un marco de referencia para la construcción de índices semánticos que permitan el intercambio abierto (Linked Open Data) de recursos basado en contenidos. En particular, se trata de generar por un lado, índices semánticos que permitan guiar el almacenamiento y recuperación de recursos de información al interior de una memoria corporativa, apegándose al enfoque de datos abiertos enlazados. Por el otro lado, diseñar y construir un prototipo que permita evaluar la propuesta. 5. Objetivos generales y específicos del proyecto de investigación Objetivo general Proponer un marco de referencia para la construcción de índices semánticos que permitan el intercambio abierto (Linked Open Data) de recursos basado en contenidos Objetivos particulares Caracterizar la naturaleza de la información al interior de la memoria de estudio (educativa). Proponer un método para la generación de índices semánticos, apoyado en el contenido de los recursos almacenados en la memoria educativa. Establecer un marco general apegado a estándares para la vinculación entre documentos orientados por el uso de sus contenidos (índices semánticos). Diseñar y construir un prototipo que permita caracterizar la naturaleza de la información al interior de una memoria educativa y su vinculación con otros recursos de información 6. Metodología propuesta La metodología que seguiremos está descrita en las siguientes etapas: a. Exploración del estado del conocimiento sobre algoritmos semánticos para la clasificación de recursos. Recopilación y análisis de los recursos de la memoria corporativa de estudio. b. Creación del protocolo de investigación. c. Definición de los requerimientos, modelos y metodología, para un sistema generador de índices semánticos apoyado en la naturaleza de los contenidos. d. Validación de la propuesta mediante la construcción de un prototipo para generar los índices semánticos de un dominio de conocimiento en particular (educación). 1 Linked Open Data.http://www.antidot.net/actualites/evenements/iswc-2012-presentation-linked-enterprisedata/ índices semánticos para el intercambio abierto de recursos basado en contenidos Página 2 e. Comunicación de resultados. 7. Resultados esperados Al finalizar el proyecto el alumno habrá construido un prototipo para generar los índices semánticos de un dominio de conocimiento en particular, acompañado de su documentación completa. Asimismo, habrá completado un conjunto de pruebas de funcionamiento que le permitirán evaluar el desempeño de su propuesta. Al término del primer trimestre el alumno entregará al coordinador el protocolo de investigación que, al menos, contendrá una descripción del estado del conocimiento, la problemática que se aborda y la metodología. Este protocolo se presentará en el seminario de avances organizado al cierre del trimestre. Al término del segundo trimestre el alumno entregará al coordinador un reporte de avance en forma de artículo. Éste contendrá la caracterización de los requerimientos de recuperación de información, así como una propuesta de diseño e implantación. Este reporte se presentará en el seminario de avances. Al finalizar el tercer trimestre el alumno entregará al coordinador un primer borrador de su idónea comunicación de resultados. De igual forma, el alumno presentará por última vez en el seminario de avances, el resultado de su trabajo. En el curso del cuarto trimestre el alumno entregará la versión final de su idónea comunicación de resultados. 8. Referencias a la literatura inicial [Berners-Lee01] Berners-Lee, T., Hendler, J., Lassila, O. (2001). The semantic web. Scientific American, 284(5):35-43 [Alarcón14] [Rios09] Alarcón Zamora Erik. “Integración Semántica de Recursos de información en una Memoria Corporativa”. Tesis de la Maestría en Ciencias y Tecnologías de la Información, UAMI. Asesores: Reyna Carolina Medina Ramírez y Héctor Pérez Urbina. 2014. Rios-Alvarado A.B., Marcelín-Jiménez R. and Medina-Ramírez R.C., “Ana B. Rios-Alvarado, R. Carolina Medina-Ramírez, Ricardo Marcelín-Jiménez. A Semantic Web Approach to Represent and Retrieve Information in a Corporate Memory. In R. Hoekstra and P. F. Patel-Schneider (Eds.). Proceedings of the 5th International Workshop on OWL: Experiences and Directions (OWLED 2009), Chantilly, VA, United States, October 23-24, 2009. Disponible en http://sunsite.informatik.rwth-aachen.de/Publications/CEUR-WS/Vol-529/ 9. Calendarización de actividades Actividad Trimestre 1 Trimestre 2 Trimestre 3 Revisión de la literatura en el tema índices semánticos para el intercambio abierto de recursos basado en contenidos Página 3 Recopilar y analizar los recursos de la memoria corporativa de estudio Creación del protocolo de investigación Definición de los requerimientos, modelos y metodología, para un sistema generador de índices semánticos abiertos apoyado en la naturaleza de los contenidos. Validación de la propuesta mediante la construcción de un prototipo para generar los índices semánticos de un dominio de conocimiento en particular Comunicación de resultados (incluye idónea comunicación de resultados y artículo de inv.) 10. Infraestructura necesaria y disponible Un conjunto de computadoras personales conectadas en red, herramientas para programar aplicaciones en lenguajes JAVA y C++, Mik-TeX ó LaTex. 11. Lugar de realización Laboratorio: ARTe (T-326 bis). índices semánticos para el intercambio abierto de recursos basado en contenidos Página 4