Nuevas técnicas de selección de términos en la clasificación documental

  1. MONTAÑÉS ROCES, ELENA
unter der Leitung von:
  1. José Ranilla Pastor Doktorvater
  2. Susana Irene Díaz Rodríguez Co-Doktormutter

Universität der Verteidigung: Universidad de Oviedo

Fecha de defensa: 03 von September von 2003

Gericht:
  1. Antonio Blanco Ferro Präsident/in
  2. Enrique del Teso Martín Sekretär
  3. José Manuel Molina López Vocal
  4. Antonio Bahamonde Rionda Vocal
  5. Eva Onaindia de la Rivaherrera Vocal
Fachbereiche:
  1. Informática

Art: Dissertation

Teseo: 95676 DIALNET

Zusammenfassung

La Clasificación Documental (CD) juega un papel importante en una gran variedad de tareas de organización y manejo de información dentro de la Recuperación de Información (RI) y de la Minería de Datos Textuales (MDT). CD es el proceso de asignar una o más categorías predefinidas a documentos de un hábeas. Los algoritmos de Aprendizaje Automático (AA) son métodos adecuados que recientemente han sido aplicados para este propósito, debido a que un documento puede representarse mediante un conjunto de términos que reflejan su contenido y mediante una o más categorías. CD es una tarea que consume mucho tiempo, debido a que involucra el manejo de gran cantidad de términos, de los cuales algunos pueden ser ruidosos o irrelevantes para la clasificación. Por tanto, una reducción de términos previa a la clasificación puede mejorar la eficiencia del clasificador. En este trabajo se proponen técnicas de selección de términos. Una de ellas consiste en una serie de medidas, tomadas del área del AA, para cuantificar la importancia de un término. Otra de ellas, consiste en clasificar los términos en relevantes o no relevantes a partir de sus propiedades lingüísticas. Finalmente, se propone una técnica de envoltura para seleccionar un cojunto de términos adecuado.