Integración semántica de grandes fuentes de datos heterogéneas

García González, Herminio

Integración semántica de grandes fuentes de datos heterogéneas

García González, Herminio

Supervised by:

José Emilio Labra Gayo Director
Juan Manuel Cueva Lovelle Co-director

Defence university: Universidad de Oviedo

Fecha de defensa: 25 March 2021

Committee:

Francisco Ortín Soler Chair
Vicente García Díaz Secretary
Anastasia Dimou Committee member
Rosa María Gil Iranzo Committee member
Albert Meroño Peñuela Committee member

Department:

Informática

Type: Thesis

Teseo: 651103 DIALNET RUO editor

Abstract

La integración de datos es el problema de agregar diferentes tipos de datos de manera que puedan ser usados mediante una única interfaz. Esto es un problema central de las ciencias de la computación donde los datos están repartidos en silos de información que dificultan su acceso e integración. La aparición de la Web Semántica supuso un avance en cuanto a las tecnologías que tuvieran como propósito central la interconexión de datos y que facilitaran esta tarea. Por tanto, en esta tesis proponemos un lenguaje para integración de datos, ShExML, que busca facilitar las tareas de integración frente a otras alternativas, y que produce grafos RDF como resultado. Así mismo, las técnicas de validación permiten establecer una serie de atributos deseables en un conjunto de datos (confiabilidad, normalización, estandarización, etc.); por lo cual, proponemos la conversión de esquemas a su alternativa dentro de las tecnologías de la Web Semántica, empezando por la técnica de conversión de XML Schema a Shape Expressions (ShEx) descrita en esta trabajo. Con el fin de probar la utilidad de las tecnologías semánticas y, específicamente, del lenguaje implementado se describen dos trabajos llevados a cabo en los campos del e-Learning y las Humanidades Digitales que intentan implementar estas herramientas dentro de los procesos propios de estas disciplinas con el fin de ofrecer nuevas perspectivas y mejorarlos. Las evaluaciones hechas en este trabajo demuestran que el uso de ShExML mejora el proceso de integración de datos para los usuarios que se inician en este tipo de actividades frente a otras alternativas. La transformación de esquemas propuesta es viable, logramos transformar los elementos de XML Schema a Shape Expressions y la validación de los conjuntos de datos equivalentes se produce adecuadamente. Sin embargo, se produce una pérdida de semántica en algunas conversiones debido a la diferencia de semántica previa entre los dos lenguajes, hecho que hace que la conversión inversa —de Shape Expressions a XML Schema— no sea siempre posible. La inclusión de contenido adicional extraído de la nube de datos enlazados demuestra mejorar la efectividad didáctica de los alumnos frente a la herramienta propia de un LMS. Por su lado, la utilización de ShExML para la transformación de transcripciones de manuscritos históricos en XML-TEI a RDF confiere a estas transcripciones de una serie de atributos alineados con la estrategia FAIR. A la luz de los resultados obtenidos proponemos mejoras, nuevas funcionalidades y retos que esta línea de investigación tiene que resolver y afrontar en el futuro. Con este trabajo hemos intentado mejorar la migración de datos en tecnologías no semánticas a tecnologías semánticas, así como explorar su uso en otras disciplinas como modo de aprendizaje, retroalimentación y posterior mejora.