Evolutionary computation methods for protein structure prediction and for the computational modeling of the protein folding process

Varela, Daniel

Evolutionary computation methods for protein structure prediction and for the computational modeling of the protein folding process

Varela, Daniel

Dirigida por:

José Santos Reyes Director/a

Universidad de defensa: Universidade da Coruña

Fecha de defensa: 29 de noviembre de 2019

Tribunal:

María Camino Rodríguez Vela Presidenta
Richard J. Duro Fernández Secretario/a
Martín Diéguez Lodeiro Vocal

Tipo: Tesis

Teseo: 608015 DIALNET RUC editor

Resumen

Esta tesis se centró en el uso de métodos híbridos de computación evolutiva para el problema de predicción de la estructura de proteínas (Protein Structure Prediction - PSP), así como un primer intento de modelar el plegado de proteínas con aprendizaje automático, utilizando nuevamente computación evolutiva como método de optimización para inferir el modelo de plegado. Dada la creciente brecha de secuencia/estructura en el conocimiento de las proteínas, los métodos computacionales de PSP son cruciales para abordar el problema. El trabajo desarrollado en esta tesis se incluye dentro de la predicción “ab initio”, que es la más desafiante ya que se basa únicamente en la información de la secuencia de proteínas para determinar la estructura nativa. En este caso de ab initio, los espacios de energía/búsqueda asociados con los modelos de representación conformacional de proteínas son de alta dimensionalidad y rugosos, en modelos atómicos e incluso en modelos de rejilla simplificados de representación de proteínas. Por lo tanto, la investigación ha estado focalizada en el uso de meta-heurísticas para muestrear el vasto espacio conformacional, meta-heurísticas que generalmente se encuentran dentro del campo de la computación bio-inspirada o natural. En esta tesis se utilizó una primera combinación entre la búsqueda global de un algoritmo evolutivo robusto (Evolución Diferencial, Differential Evolution - DE) y técnicas de búsqueda local para el problema de PSP. Esta versión hibrida se definió inicialmente para un modelo de rejilla detallado para la representacióon de proteínas (Face Centered Cubic lattice - FCC). La búsqueda local y voraz definida selecciona, en cada movimiento entre dos aminoácidos consecutivos, el movimiento que minimiza la energía de la conformación de la proteína consiguiente. Esa búsqueda local se puede utilizar para refinar las conformaciones de prueba proporcionadas por los operadores genéticos de DE, así como las conformaciones de la población genética, siguiendo una combinación clásica lamarckiana que puede minimizar el número de evaluaciones de calidad en la búsqueda de soluciones optimizadas (conformaciones de proteínas). A continuación, la combinación anterior se extendió para abordar el mismo problema en un modelo atómico, utilizando la representación de grano grueso del sistema Rosetta, uno de los entornos de software más exitosos para el diseño de proteínas. La extensión del trabajo anterior con el modelo FCC considera la adaptación de la optimización de DE a la nueva representación de proteínas con ángulos diédricos. La técnica de inserción de fragmentos de Rosetta se utilizó para implementar un procedimiento de búsqueda local, técnica que puede refinar localmente los ángulos diédricos de una conformación de proteína. Por lo tanto, con los mismos elementos que en el caso anterior (modelo de rejilla de FCC), la versión híbrida definida sigue las mismas ideas con una combinación lamarckiana entre DE y la búsqueda local. Los resultados con proteínas resueltas del Protein Data Bank muestran que la versión híbrida obtiene conformaciones de menor energía en comparación con trabajos anteriores y con el protocolo Rosetta ab initio y bajo el mismo número de evaluaciones de calidad/energía. Además, la misma versión híbrida de DE se usó para tener en cuenta la información de los mapas de criomicroscopía electrónica (cryo-electron microscopy, cryo-EM). En este caso, la versión híbrida adaptada permite el refinamiento de las conformaciones de proteínas utilizando la información de cryo-EM y para obtener estructuras más cercanas a la nativa. Sin embargo, en los modelos atómicos, puede aparecer un problema cuando el espacio energético es “engañoso”. En el caso de Rosetta, significa que el mínimo global en el espacio de energía de alta dimensionalidad no se corresponde necesariamente con la estructura nativa. Abordamos el problema con una posibilidad en computación evolutiva que no se consideró directamente en esta aplicación. La posibilidad es el uso de métodos de niching en un espacio de energía multimodal, métodos que pueden ubicar a los individuos de la población en las áreas más prometedoras (nichos) del espacio de calidad. Por lo tanto, el algoritmo híbrido DE se combinó con los métodos clásicos de niching en computación evolutiva (crowding, fitness sharing y speciation), con el objetivo de obtener conformaciones de proteínas que correspondan a soluciones en diferentes nichos y con diferentes plegamientos. Los métodos desarrollados permiten obtener soluciones potenciales en las generaciones finales con un conjunto diverso de plegamientos con diferentes distancias (RMSD) a la conformación nativa real. La ´ultima parte de la tesis está relacionada con el proceso de plegado de proteínas y cómo modelarlo desde un enfoque de aprendizaje automático puro. Para el modelado, el proceso de plegado se consideró como un proceso emergente, resultado de las interacciones a través del tiempo entre los componentes de la proteína. Por lo tanto, nos basamos en herramientas clásicas como los autómatas celulares (Cellular Automata - CA) para modelar tal proceso emergente. El conjunto de reglas de un autómata celular cl´asico se extendió ya que se implementó con redes neuronales artificiales (Artificial Neural Networks - ANN), y las ANN se obtuvieron automáticamente mediante un algoritmo evolutivo. Las ANN/CA optimizadas definen los cambios locales en la conformación de una proteína a través del tiempo hasta que se alcanza la conformación final. Los métodos propuestos se implementaron con modelos de rejilla, utilizando nuevamente el modelo FCC detallado y, a continuación, toda la metodología se extendió a la representación atómica de Rosetta de grano grueso. Las limitaciones aparecen en dicho modelado, pero incluso con las simplificaciones y limitaciones encontradas, el trabajo realizado puede considerarse un primer intento de utilizar aprendizaje máquina para obtener automáticamente un modelo del proceso de plegado.