Text mining y medicinauna aproximación a la detección temprana de enfermedades

  1. LUQUE GUZMÁN, CARMEN
Dirigée par:
  1. Sebastián Ventura Soto Directeur/trice
  2. José María Luna Ariza Co-directeur/trice

Université de défendre: Universidad de Córdoba (ESP)

Fecha de defensa: 03 septembre 2020

Jury:
  1. Ernestina Menasalvas President
  2. Cristóbal Romero Morales Secrétaire
  3. Alejandro Rodríguez González Rapporteur

Type: Thèses

Résumé

1. introducción o motivación de la tesis El futuro próximo de los servicios sanitarios vendrá marcado por el envejecimiento de la población y la cronicidad de las patologías. Junto a los cambios demográficos y sociales, se está produciendo un claro aumento de la frecuentación en los distintos servicios de atención primaria y especializada, y por supuesto todo esto se traduce en un fuerte incremento del gasto sanitario. Todo este problemático contexto hace que las instituciones sanitarias se marquen como principales objetivos la priorización de la prevención, el control de los factores de riesgo y la detección precoz de enfermedades. Para apoyar la prevención primaria es muy importante que el profesional sanitario tenga todos los medios disponibles a su alcance para extraer Conocimiento de su principal fuente de información que es la historia clínica informatizada del paciente. El profesional sanitario debería tener medios a su alcance para ser capaz de conocer e interrelacionar eventos clínicos de interés que pueden servir para alertar sobre la aparición de futuros problemas y riesgos de padecer determinadas enfermedades y debería disponer de herramientas que ayudarán a pronosticar el desarrollo de una posible enfermedad. Si bien es cierto que el profesional sanitario tiene acceso a la historia clínica informatizada del paciente en cada acto clínico, también es cierto que el esfuerzo, tiempo y coste que supondría extraer Conocimiento de la simple lectura de los múltiples informes clínicos, escritos en su mayoría en lenguaje natural, con contenido textual no estructurado y con escasa estandarización terminológica, sería incalculable e imposible de asumir por la mayoría de los profesionales sanitarios en la práctica clínica diaria. Hasta el momento, los sistemas de información existentes en la mayoría de instituciones sanitarias sólo han sido sistemas de almacenaje de información, es decir sistemas que recopilan y almacenan toda la información asistencial generada en la interacción médicopaciente, pero todavía no se ha dado el paso de convertir estos grandes “almacenes de información” en “fuentes de Conocimiento” que aporten valor para facilitar y apoyar la toma de decisiones clínicas. Sin embargo, el reto de automatizar este proceso no es una tarea trivial. Se estima que en un complejo hospitalario regional se pueden generar al año más de 3 millones de documentos clínicos, el 80% de esta documentación clínica contiene información no estructurada, una de la más destacable es la información textual. Hasta ahora la información clínica textual ha sido prácticamente ignorada por la mayoría de las instituciones sanitarias debido a la gran complejidad en su explotación para generar valor de su contenido. La principal fuente de conocimiento contenida en la historia clínica electrónica, que es la narrativa clínica textual, es en la práctica altamente desaprovechada. A la dificultad de las organizaciones sanitarias para obtener valor del texto, con las herramientas de análisis hasta ahora utilizadas, se suman las peculiares características que posee la terminología clínica donde prima: una alta ambigüedad y complejidad del vocabulario, la narrativa textual libre, una escasa normalización terminológica y un uso excesivo de acrónimos y negaciones. En este complejo marco y ante la creciente necesidad de adquirir Conocimiento para apoyar el proceso de prevención y toma de decisiones clínicas, se hace imprescindible el uso de “sistemas inteligentes” que ayuden a extraer el valor encerrado en el contenido textual de los múltiples documentos que integran la historia clínica electrónica. Pero a pesar de esta acuciante necesidad, actualmente existen muy pocos sistemas reales que extraigan conocimiento del texto clínico para facilitar el trabajo diario al profesional sanitario en tareas arduas y complejas como la detección de factores de riesgo o la predicción diagnóstica. En la actualidad, para abordar la problemática de extraer valor del texto clínico, en el entorno de la medicina computacional, disponemos de las técnicas avanzadas que nos proporciona la disciplina del Text Mining (TM)[1]. La disciplina del TM podría definirse básicamente como un área orientada a la identificación y extracción de nuevo conocimiento adquirido a partir de información textual, es un campo multidisciplinar que puede integrar técnicas de otras disciplinas como el procesamiento del lenguaje natural[2] o el machine learning[3]. En este sentido, proponemos la creación de un novedoso sistema, denominado MiNerDoc, que permitirá apoyar la toma de decisiones clínicas en base a una combinación de técnicas de la disciplina del Text Mining, junto con el enriquecimiento terminológico y semántico proporcionado por la herramienta MetaMap[4] y el metathesaurus UMLS[5], recursos que aportan características esenciales en el dominio médico. MiNerDoc permitirá, entre otras funcionalidades, detectar factores de riesgo o eventos clínicos de interés e inferir automáticamente códigos normalizados de diagnósticos tomando como fuente exclusiva la información textual contenida en informes clínicos, en definitiva, permitirá llevar a cabo tareas complejas que faciliten y apoyen al profesional sanitario en la prevención primaria y la toma de decisiones clínicas. 2.contenido de la investigación · Revisión Bibliográfica. · Creación de una metodología para el Reconocimiento de Entidades Médicas[6] que permita el descubrimiento automático de factores de riesgo desde informes clínicos (reconocimiento de entidades nombradas en el ámbito de la Medicina Clínica basado en MetaMap y el metatesauro UMLS). · Desarrollar una metodología que permita realizar la tarea de clasificación diagnóstica multietiqueta[7] con el objetivo de predecir automáticamente una o varias categorías normalizadas de diagnóstico en base al contenido textual de informes clínicos. Esta metododología se denominara “metodología dCSE (diagnostic Classification with Semantic Enrichement)”. · Creación Colección Informes Clínicos categorizados. · Creación de un novedoso sistema TM, denominado MiNerDoc. Principales funcionalidades: detección de cinco tipos de entidades médicas (Disease, Pharmacologic, Region/Part Body, Procedure/Test, Finding/Sign), detección de factores de riesgo, detección de negaciones, sistema de predicción automática de códigos normalizados de diagnóstico (de uno o múltiples informes clínicos),etc. · Evaluación del sistema MiNerDoc: evaluación del sistema de reconocimiento de entidades médicas (creación de un corpus semántico anotado manualmente por un médico experto en documentación clínica), evaluación del sistema de clasificación diagnóstico propuesto (metodología dCSE). 3.conclusión Esta investigación surge con el afán de dar el primer paso para cubrir una necesidad real y acuciante ante los complicados retos a los que inevitablemente debe enfrentarse la sanidad (envejecimiento, cronicidad de enfermedades, aumento de la demanda asistencial, falta de recursos), y no es otra que utilizar la gran cantidad de información clínica textual, disponible en la historia clínica informatiza, para aplicarla en apoyar la toma de decisiones y la prevención primaria. A lo largo de esta investigación, hemos querido aportar nuestro grano de arena para que este primer paso pueda darse, para ello hemos realizado una recopilación de más de 400 artículos relacionados con las áreas del TM, la extracción de información textual, el aprendizaje automático, la clasificación multietiqueta y otras áreas similares dentro del dominio de la Medicina, hemos creado una colección de 1,210 informes clínicos categorizados cuya fuente original es la base de datos MIMIC, hemos desarrollado un sistema TM, denominado MiNerDoc, intuitivo, sencillo y creemos que útil, que puede ser un avance para iniciar el apoyo en la toma de decisiones diagnósticas y preventivas. MiNerDoc integra, en una único framework, dos tareas principales (detección de factores de riesgo y predicción automática de códigos de diagnóstico estandarizados) con características esenciales en el campo clínico (enriquecimiento semántico, desambiguación y detección de negaciones). Se ha llevado a cabo un amplio análisis experimental para evaluar el sistema TM desarrollado en esta investigación. Los resultados demostraron la efectividad y viabilidad del sistema TM propuesto y verificaron el prometedor rendimiento de MiNerDoc en las dos tareas evaluadas, reconocimiento de entidades médicas (FMeasure 81.54%) y clasificación diagnóstica multietiqueta (FMeasuremic 81.04%). Nuestra aportación principal es cubrir el gran déficit existente de sistemas inteligentes en el ámbito clínico basados en el análisis de información textual, que apoyen la toma de decisiones, que sean aplicables a varias áreas de conocimiento (enfermedades del corazón y enfermedades respiratorias) y que se presenten en un framework unificado simplificando la labor asistencial mediante la automatización de tareas arduas y complejas (detección de alertas clínicas y predicción diagnóstica). 4. bibliografía [1] Weiss, S. M., Indurkhya, N., & Zhang, T. (2015). Fundamentals of predictive text mining. Springer. [2] Shaalan, K., Hassanien, A. E., & Tolba, F. (Eds.). (2017). Intelligent Natural Language Processing: Trends and Applications (Vol. 740). Springer. [3] Michalski, R. S., Carbonell, J. G., & Mitchell, T. M. (Eds.). (2013). Machine learning: An artificial intelligence approach. Springer Science & Business Media. [4] Aronson, A. R., & Lang, F. M. (2010). An overview of MetaMap: historical perspective and recent advances. Journal of the American Medical Informatics Association, 17(3), 229-236. [5] Bodenreider, O. (2004). The unified medical language system (UMLS): integrating biomedical terminology. Nucleic acids research, 32(suppl_1), D267-D270. [6]Nadeau, D., & Sekine, S. (2007). A survey of named entity recognition and classification. Lingvisticae Investigationes, 30(1), 3-26. [7]Gibaja, E., & Ventura, S. (2015). A tutorial on multilabel learning. ACM Computing Surveys (CSUR), 47(3), 52.