Novel methods in distributed machine learning for large datasets

Peteiro Barral, Diego

Novel methods in distributed machine learning for large datasets

Peteiro Barral, Diego

Dirigida per:

Óscar Fontenla Romero Director/a
Bertha Guijarro-Berdiñas Director/a

Universitat de defensa: Universidade da Coruña

Fecha de defensa: 26 de de novembre de 2015

Tribunal:

Óscar Luaces Rodríguez President
Noelia Barreira Secretari/ària
Cristina Solares Martínez Vocal

Tipus: Tesi

Teseo: 397718 DIALNET RUC editor

Resum

La cantidad de datos almacenados actualmente está creciendo a un ritmo sin precedentes. Con la variedad, velocidad y volumen de datos transmitiéndose a través de redes de comunicación y bases de datos, encontrar patrones relevantes en estos datos que conduzcan a conclusiones significativas se ha convertido en un reto. En este contexto, el aprendizaje automático se ha convertido en una pieza fundamental para extraer el mayor valor posible de estos conjuntos de datos tan grandes y diversos. El aprendizaje automáatico permite analizar cientos de variables simultáneamente, así como la interacción entre ellas, y es muy adecuado para problemas complejos. Sin embargo, la mayoría de algoritmos de aprendizaje fueron dise~nados con la suposición de que los datos estarían representados en la memoria principal de un computador en formato de tabla pero, con el volumen de datos actual, estas estructuras son demasiado grandes para ser almacenadas como una única tabla en memoria principal. Así, la computación distribuida se ha convertido en un paradigma esencial para enfrentar las restricciones actuales en términos de velocidad y almacenamiento. En esta tesis, nos centramos en métodos que son adecuados para trabajar con grandes volumenes de datos y que tienen el potencial de ser implementados de forma distribuida. Nuestra contribución tiene dos vertientes; en primer lugar, se implementan métodos para mejorar la escalabilidad de algoritmos de aprendizaje automático y, en segundo lugar, se desarrollan métodos de aprendizaje que muestran sesgos en las distribuciones de los datos.