Magenta: marco general de trabajo del aprendizaje

Álvarez de Toledo Liniers, Santiago

Magentamarco general de trabajo del aprendizaje

Álvarez de Toledo Liniers, Santiago

Dirigida por:

José María Barreiro Sorrivas Director/a
César Montes Gracia Director/a

Universidad de defensa: Universidad Politécnica de Madrid

Fecha de defensa: 28 de noviembre de 2000

Tribunal:

Darío Maravall Gómez-Allende Presidente/a
Juan Pazos Sierra Secretario/a
Antonio Bahamonde Rionda Vocal
Daniel Borrajo Millán Vocal
Francisco Javier Segovia Pérez Vocal

Tipo: Tesis

Teseo: 84920 DIALNET

Resumen

El Aprendizaje por Refuerzo ha tenido durante los últimos años una gran relevancia y se le supone tal potencial que algunos autores han llegado a sostener que es una nueva forma de concebir en su conjunto la Inteligencia Artificial, Sin embargo, el éxito conseguido, por ejemplo, en un area como la robótica, ha sido unicamente parcial, por existir dos principales dificultades en su desarrollo: -las aplicaciones son especializadas para un área determinada, lo que dificulta su generalización y extrapolación a otras áreas. -el proceso de aprendizaje y la convergencia de los resultados son más lentos y limitados de cómo sería deseable. A veces, el propio aprendizaje genera tanta información que el proceso se bloquea. Esta Tesis pretende exponer un marco de trabajo que sea utilizable en diferentes clases de aplicaciones de Aprendizaje por Refuerzo, independientemente de los tipos de entrada y salida utilizados, asi como del nivel de complejidad. Asimismo, pretende compendiar unos principios generales que sirvan de aceleradores al subsodicho proceso de aprendizaje. Para ello, se establece una arquitectura basada en un Agente Central de la Asociación, Un Subsistema de Entrada y un Subsistema de Salida. El Subsistema de Entrada tiene el cometido de detectar sensorialmente el entorno y generar unos patrones de acción al Subsistema de Salida, que es responsable de realizar las acciones correspondientes. El agente Central de la Asociación tiene medios para asociar estadisticamente los patrones de las entradas y salidas que han tenido lugar repetidas veces y que han aportado unos resultados positivos o negativos, acertados o erroneos. Para ello dispone de unos elementos de valoración de los resultados, que reaccionan positiva o negativamente a determinados estímulos sensoriales. La asociación descrita guía el proceso de aprendizaje. El hecho de que el Agente Central de Asociación no se relacione directamente con estímu