Document classification models based on bayesian networks

  1. Romero López, Alfonso Eduardo
Dirigida por:
  1. Luis Miguel de Campos Ibáñez Director/a
  2. Juan Manuel Fernández Luna Director/a

Universidad de defensa: Universidad de Granada

Fecha de defensa: 27 de abril de 2010

Tribunal:
  1. Serafín Moral Callejón Presidente/a
  2. Juan Francisco Huete Guadix Secretario/a
  3. Ludovic Denoyer Vocal
  4. Susana Irene Díaz Rodríguez Vocal
  5. José Antonio Gámez Martín Vocal

Tipo: Tesis

Resumen

La primera contribución de esta tesis es presentar nuevos métodos de Clasificación Documental basados en puertas OR ruidosas como una contrapartida discriminativa al clasificador Naive Bayes multinomial, El clasificador Naive Bayes se usa bastante en las comunidades de Aprendizaje Automático y en la de Clasificación Documental, y representa un buen punto inicial para trabajar con modelos probabilísticos. Para mejorar algunas limitaciones del modelo, también se presenta un procedimiento de poda ad hoc que refina el proceso de aprendizaje de nuestro modelo de puerta OR. Afirmamos que el modelo de puerta OR propuestomantiene la simplicidad del Naive Bayes, incrementando su poder de discriminación. La segunda contribución de esta tesis es la introducción del problema de indexación basada en un tesauro. Este problema se ha tratado anteriormente en la literatura, pero o bien como un problema de clasificación supervisada (sin usar la jerarquía o los metadatos), o como un problema de indexación no supervisada. Presentaremos una formalización de un tesauro, independiente del modelo de clasificación que se describe posteriormente, y apropiado para muchos de los tesauros usados en el mundo. Junto a esta formalización, presentaremos el problema de clasificación en tesauros propiamente dicho, y propondremos dos soluciones: una usando información de entrenamiento y otra sin usarla, ambas construidas usando un modelo de red bayesiana del tesauro y de su información relacionada. De hecho, el modelo con información de entrenamiento se muestra como una extensión del no supervisado, haciendo uso del clasificador puerta OR anteriormente presentado. Trataremos de probar que un modelo probabilístico de las relaciones entre las categorías y los metadatos que tiene el tesauro, junto con la información de entrenamiento, puede tener un poder de clasificación comparable o superior al modelo que representa el estado del arte en Clasificación Documental (la Máquina de Vectores Soporte Lineal). Nuestra contribución finaliza con la proposición de varios modelos para problemas de clasificación estructurada. Primeramente realizaremos transformaciones a documentos XML para convertirlos en texto plano y poder aplicar el clasificador puerta OR presentado. Por otra parte, mostraremos dos soluciones al problema de clasificación basada en enlaces; uno para el caso multiclase (donde un documento se etiqueta con una de entre varias categorías) y otro para el modelo multietiqueta (donde el número de categorías asociado a cada documento es libre). Ambas propuestas se basan en redes bayesianas aprendidas directamente de las relaciones entre las categorías presentes en los datos de entrenamiento, y hacen uso de un clasificador probabilístico para el contenido (como, por ejemplo, el Naive Bayes). De este modo, nuestros modelos pueden ser vistos como una extensión de un modelo probabilístico clásico para el caso de clasificación basada en enlaces.