Nuevas técnicas de selección de términos en la clasificación documental
- José Ranilla Pastor Director
- Susana Irene Díaz Rodríguez Codirectora
Universitat de defensa: Universidad de Oviedo
Fecha de defensa: 03 de de setembre de 2003
- Antonio Blanco Ferro President/a
- Enrique del Teso Martín Secretari
- José Manuel Molina López Vocal
- Antonio Bahamonde Rionda Vocal
- Eva Onaindia de la Rivaherrera Vocal
Tipus: Tesi
Resum
La Clasificación Documental (CD) juega un papel importante en una gran variedad de tareas de organización y manejo de información dentro de la Recuperación de Información (RI) y de la Minería de Datos Textuales (MDT). CD es el proceso de asignar una o más categorías predefinidas a documentos de un hábeas. Los algoritmos de Aprendizaje Automático (AA) son métodos adecuados que recientemente han sido aplicados para este propósito, debido a que un documento puede representarse mediante un conjunto de términos que reflejan su contenido y mediante una o más categorías. CD es una tarea que consume mucho tiempo, debido a que involucra el manejo de gran cantidad de términos, de los cuales algunos pueden ser ruidosos o irrelevantes para la clasificación. Por tanto, una reducción de términos previa a la clasificación puede mejorar la eficiencia del clasificador. En este trabajo se proponen técnicas de selección de términos. Una de ellas consiste en una serie de medidas, tomadas del área del AA, para cuantificar la importancia de un término. Otra de ellas, consiste en clasificar los términos en relevantes o no relevantes a partir de sus propiedades lingüísticas. Finalmente, se propone una técnica de envoltura para seleccionar un cojunto de términos adecuado.