Unos ingenieros han simulado 500 millones de años de evolución con una IA. Ahora tenemos una proteína fluorescente
El pasado mes de octubre, el comité encargado de fallar el Premio Nobel en química otorgaba el galardón a David Baker “por el diseño computacional de proteínas”; y a Demis Hassabis y John M. Jumper “por la predicción de la estructura de proteínas”. El trabajo de estos investigadores abrió un nuevo camino en el estudio de las proteínas.
Un camino que hoy en día siguen diversos laboratorios.
Nuevas proteínas. Entre ellos la empresa estadounidense EvolutionaryScale, que recientemente lograba crear una proteína fluorescente artificial a través de un modelo de inteligencia artificial. La creación de esta proteína resulta, en palabras del equipo, en la simulación de 500 millones de años de evolución natural.
GFP. La nueva proteína creada por el equipo pertenece a una “familia” de proteínas llamadas proteínas fluorescentes verdes, o GFP (Green fluorescent protein). Este tipo de proteínas puede encontrarse en la naturaleza, por ejemplo en algunas medusas. Su descubrimiento también valió un Premio Nobel: el de química en 2008.
Aunque podemos situar esta proteína artificial en el contexto de la “familia” de las GFP, la nueva proteína (a la que han denominado esmGFP) difiere de estas en su estructura y forma, manteniendo una porción que se asemeja a las ya conocidas.
Evolución, simulada. No tenemos constancia de que la proteína simulada se de en la naturaleza, pero su existencia y funcionalidad nos permite imaginar una realidad alternativa en la que la evolución hubiera tomado otros derroteros, favoreciendo este diseño en principio teórico sobre los que podemos observar en la naturaleza.
Según explica el equipo responsable de Las diferencias entre una y otras son, según estimaciones del equipo, son equiparables a 500 millones de años de evolución natural.
ESM3. El equipo desarrolló un modelo generativo de lenguaje, ESM3 (EvolutionaryScale Model 3) cuya función puede resultar un tanto contraintuitiva ya que, pese a su nombre, lo que genera no es texto, sino proteínas.
El modelo permite estudiar la secuencia, estructura tridimensional y función de la infinidad de combinaciones, una mejora sustantiva con respecto a los modelos que solo tienen en cuenta la secuencia de aminoácidos que forma la molécula y no la forma que los pliegues de esta dan. Algo de extrema importancia ya que tanto secuencia como forma afectan a la función de las proteínas.
Entrenar el modelo requirió 771.000 millones de paquetes creados a partir de 3.150 millones de secuencias de proteínas, 236 millones de estructuras, y 539 millones de proteínas con sus funciones asociadas. Los detalles del proceso seguido por el equipo y sus resultados fueron publicados en un artículo en la revista Science.
Más que historia-ficción. El desarrollo de las proteínas que pudieron ser y no fueron de la evolución puede permitirnos especular con el “qué podría haber sido”, imaginando realidades alternativas donde la evolución tomó otros caminos. Pero también puede darnos resultados más prácticos.
Una de las principales aplicaciones prácticas de estas proteínas está en la medicina. Encontrar nuevas proteínas con funciones similares a las que cumplen las que sintetiza de forma natural nuestro cuerpo puede tener utilidad en la lucha contra determinados trastornos.
Imagen | EvolutionaryScale