Desarrollo, estudio y aplicación de algoritmos basados en el híbrido som-ng
- Iván Machón González Director
- Hilario López García Director
Defence university: Universidad de Oviedo
Fecha de defensa: 10 April 2014
- Ignacio Díaz Blanco Chair
- Emilio Soria Olivas Secretary
- Manuel Domínguez González Committee member
Type: Thesis
Abstract
I. Introducción El primer apartado constituye una introducción a las diferentes técnicas empleadas para la tesis, con un capitulo general de introducción a la inteligencia artificial y la minería de datos (data mining) Tras ubicar el contexto del trabajo se realiza una introducción de procedimientos heurísticos y apoyos matemáticos para la selección de variables, que es fundamental en el preprocesamiento de los datos antes de entrenar una red neuronal y además es una de las aplicaciones propuestas para el algoritmo presentado. Una vez conocidas las herramientas matemáticas se estudiarán las redes neuronales, dedicando un especial interés en los mapas auto-organizados. Se explican con especial interés el ¿Self-Organizing Map¿ (SOM) de Kohonen y el ¿Neural Gas¿ (NG) de Martinetz ya que son los que se van a hibridar para el desarrollo del algoritmo propuesto. El SOM se caracteriza por la preservación de la vecindad entre los prototipos que se definen como adyacentes en la fase previa al entrenamiento y el NG no tiene dicha definición de vecindad pero consigue resultados mejores en cuanto a la aproximación de los prototipos a los datos empleados en el entrenamiento. II. El algoritmo híbrido El bloque principal es el desarrollo del algoritmo híbrido, donde se explican sus principales características y se estudia la influencia de los parámetros sobre el resultado obtenido. El primer capítulo de este bloque presenta las características más importantes del algoritmo además de su desarrollo matemático explicado. Se incluyen pequeños ejemplos de carácter aclarativo que explican los objetivos perseguidos al realizar la hibridación. Tras la presentación del algoritmo se expone la metodología experimental que se va a emplear para poder evaluar de forma lo más ecuánime posible los resultados de los experimentos que se explican en los siguientes capítulos además de conseguir una repetitividad en la mayoría de los casos, que es criterio fundamental en el método científico. También se explican los errores de cuantificación, de estimación, de clasificación y de preservación topológica que servirán para cuantificar y comparar el algoritmo híbrido con otros algoritmos. Los siguientes capítulos recopilan los experimentos más representativos de todos los realizados, en los que se demuestra que el comportamiento es el esperado. Se incluye un análisis de la influencia de los diferentes parámetros que recibe el algoritmo: la constante de preservación topológica, el radio de vecindad, el tamaño del mapa y la duración del entrenamiento. Todo esto para las versiones secuencial y por lotes en datos con valor de salida a estimar y sin él. Una vez que se ha visto el comportamiento del algoritmo bajo diferentes condiciones de trabajo se presentan aplicaciones diferentes que surgen de las características propias del algoritmo y su comprensión. Una de estas aplicaciones es el uso de los gradientes empleados para modelar una variable de salida para detectar influencias locales de las variables de entrada. Esta aplicación se demuestra con una aplicación de aprovechamiento de la energía solar en la que se estudia la influencia de la nubosidad sobre la eficiencia luminosa y específicamente en la altura solar a la que se alcanza el valor máximo. Tras comprobar que es posible hacer análisis de datos empleando los gradientes obtenidos se propone el uso de planos de componentes de los gradientes obtenidos como herramienta para detectar influencias y variables relevantes. Esta herramienta es menos intuitiva que el método propuesto en el capítulo anterior pero es de gran ayuda para los usuarios habituales del algoritmo SOM. III. Conclusiones y trabajo futuro El bloque final resume el trabajo contenido en el documento y propone continuaciones y mejoras posibles en este trabajo, dividiéndolas en dos líneas diferentes: una centrada en el desarrollo del algoritmo y otra en la búsqueda de aplicaciones.