Nuevas técnicas de selección de términos en la clasificación documental

  1. MONTAÑÉS ROCES, ELENA
Dirigida por:
  1. José Ranilla Pastor Director
  2. Susana Irene Díaz Rodríguez Codirectora

Universidad de defensa: Universidad de Oviedo

Fecha de defensa: 03 de septiembre de 2003

Tribunal:
  1. Antonio Blanco Ferro Presidente/a
  2. Enrique del Teso Martín Secretario
  3. José Manuel Molina López Vocal
  4. Antonio Bahamonde Rionda Vocal
  5. Eva Onaindia de la Rivaherrera Vocal
Departamento:
  1. Informática

Tipo: Tesis

Teseo: 95676 DIALNET

Resumen

La Clasificación Documental (CD) juega un papel importante en una gran variedad de tareas de organización y manejo de información dentro de la Recuperación de Información (RI) y de la Minería de Datos Textuales (MDT). CD es el proceso de asignar una o más categorías predefinidas a documentos de un hábeas. Los algoritmos de Aprendizaje Automático (AA) son métodos adecuados que recientemente han sido aplicados para este propósito, debido a que un documento puede representarse mediante un conjunto de términos que reflejan su contenido y mediante una o más categorías. CD es una tarea que consume mucho tiempo, debido a que involucra el manejo de gran cantidad de términos, de los cuales algunos pueden ser ruidosos o irrelevantes para la clasificación. Por tanto, una reducción de términos previa a la clasificación puede mejorar la eficiencia del clasificador. En este trabajo se proponen técnicas de selección de términos. Una de ellas consiste en una serie de medidas, tomadas del área del AA, para cuantificar la importancia de un término. Otra de ellas, consiste en clasificar los términos en relevantes o no relevantes a partir de sus propiedades lingüísticas. Finalmente, se propone una técnica de envoltura para seleccionar un cojunto de términos adecuado.