Sistema automático para el reconocimiento de documentos manuscritos basado en el análisis de trazos

  1. Álvarez León, David
unter der Leitung von:
  1. Ramón Ángel Fernández Díaz Doktorvater/Doktormutter
  2. Lidia Sánchez González Doktorvater/Doktormutter

Universität der Verteidigung: Universidad de León

Fecha de defensa: 22 von Dezember von 2015

Gericht:
  1. Ángel Alonso Álvarez Präsident/in
  2. Francisco Javier de Cos Juez Sekretär
  3. Emilio Santiago Corchado Rodríguez Vocal

Art: Dissertation

Zusammenfassung

En este trabajo se propone un sistema experto para el reconocimiento de texto manuscrito a partir de la información obtenida al analizar los trazos que componen el propio texto. Tras aplicar un serie de operaciones previas a la imagen adquirida, se realiza la segmentación correspondiente para obtener sus letras. Los píxeles de cada letra se clasifican en verticales u horizontales atendiendo a sus características y se agrupan formando trazos verticales u horizontales. Mediante zonificación dinámica se localizan las intersecciones existentes entre los trazos verticales con sus horizontales adyacentes. El uso de una gramática formal permite reducir esta característica a una cadena representativa que es reconocida por un autómata finito para comprobar su validez. El almacenamiento de los descriptores se realiza mediante una base de conocimiento con estructura de árbol trie. En sus nodos, se almacenan cada uno de los elementos de la cadena representativa previamente generada incorporando, además, un nodo hoja con el carácter que identifica. De esta manera, el motor de inferencia es capaz de realizar búsquedas de nuevos caracteres sobre la base de conocimiento. En un contexto alfabético, el motor de inferencia se ayuda de un corrector ortográfico para componer la palabra de la imagen introducida a reconocer. Por el contrario, en un reconocimiento numérico, toma una decisión estadística en base al entrenamiento. Se han desarrollado una serie de experimentos tanto para el reconocimiento alfabético como para el reconocimiento numérico. Para el primero de ellos, con el fin de comprobar la eficacia del sistema experto, se ha desarrollado una aplicación, XIRIS, que permite realizar los experimentos en base a cuatro escenarios posibles. En dichos escenarios, se han utilizando palabras sintéticas previamente generadas a partir de una muestra de caracteres reales escrita por dos autores. Los resultados señalan una tasa de acierto en el mejor de los escenarios del 95,36% para las palabras y de 95,46% para las letras que componen esas palabras. Por otro lado, para los experimentos con caracteres numéricos se ha utilizado la base de datos MNIST con números escritos a mano por cerca de 250 escritores alcanzando una tasa de acierto del 88,77%.