Científicos de EvolutionaryScale, una compañía que desarrolla Inteligencia Artificial (IA) para entender la biología, logró que uno de sus modelos de lenguaje grande (LLM) creara una nueva proteína que no existe en la naturaleza.
Lo más impresionante es que, para que las condiciones naturales por sí mismas crearan esta proteína, tendrían que pasar unos 500 millones de años de evolución.
EvolutionaryScale creó un modelo de IA al que llamaron ESM3, que es capaz de programar y crear bajo un concepto al que llaman “código de la vida”. Esto bajo la premisa de que la biología sería “programable” a niveles que los científicos aún no logran entender.
Pongámoslo así, el ribosoma, un órgano de las células que se dedica a sintetizar proteínas, toma los códigos de estas en forma de ARN y los construye desde cero, una fabricación molecular que ocurre a escala atómica.
Los expertos creen que lo que el ribosoma hace realmente es programar, pero ¿cómo? ¿Cuál sería su lenguaje?
“Cada célula de cada organismo de la Tierra tiene miles o millones de estas fábricas moleculares. Pero incluso las herramientas computacionales más sofisticadas creadas hasta la fecha apenas arañan la superficie: la biología está escrita en un lenguaje que aún no entendemos“, señala un comunicado de EvolutionaryScale.
Si los científicos pudieran aprender a leer y escribir el código de la vida, la biología entonces sería programable. Esto es precisamente lo que está haciendo ESM3 a través de simulaciones, ayudando a los científicos a comprenderlo mejor.
¿Una nueva proteína?
Los expertos de la compañía de biotecnológica publicaron un estudio preliminar en la revista Science en enero, donde describen cómo este modelo artificial generó una nueva proteína fluorescente verde (GFP), como las que hacen brillar a las medusas o corales. La llamaron “esmGFP”.
Esta se parece solo en un 58% a la proteína que más se le acerca de las ya existentes. “A partir de la tasa de diversificación de las GFP encontradas en la naturaleza, estimamos que esta generación de una nueva proteína fluorescente es equivalente a simular más de 500 millones de años de evolución“, explican.
Con esta capacidad, ESM3 se convirtió en el primer modelo de IA generativa para biología que puede razonar simultáneamente sobre la secuencia, estructura y función de las proteínas.
¿Cómo lo hicieron? Básicamente, como funcionan todos los modelos de lenguaje grande: entrenamiento. Los científicos la entrenaron con datos de miles de millones de proteínas para mostrarle la diversidad de la Tierra, “desde la selva amazónica hasta las profundidades de los océanos”, aseguran.
Además, lo hicieron “a escala”. Esto significa que a medida que aumentan los parámetros, datos y cómputo, la IA va desarrollando capacidades emergentes. Así es como funcionan los modelos de lenguaje grandes comúnmente, pero esto encaja perfectamente con la biología misma.
“Los modelos de lenguaje operan sobre unidades discretas o tokens. Para crear uno que pueda razonar sobre tres de las propiedades biológicas fundamentales de las proteínas (secuencia, estructura y función), tuvimos que transformar la estructura y la función tridimensionales en alfabetos discretos y construir una forma de escribir cada estructura tridimensional como una secuencia de letras. Esto permite entrenar ESM3 a escala, desbloqueando capacidades generativas emergentes. El vocabulario de ESM3 une secuencia, estructura y función, todo dentro del mismo modelo de lenguaje”, señala EvolutionaryScale.
“ESM3 se entrena con un objetivo simple. Para cada proteína, se extraen, tokenizan y enmascaran parcialmente su secuencia, estructura y función. La tarea de ESM3 es predecir las posiciones enmascaradas utilizando el objetivo de modelado de lenguaje enmascarado inspirado en los modelos de procesamiento del lenguaje natural. Para lograr esta tarea, ESM3 debe aprender a comprender en profundidad la conexión entre la secuencia, la estructura y la función en los datos a escala evolutiva. Cuando se escala en miles de millones de proteínas y miles de millones de parámetros, ESM3 aprende a simular la evolución“, agregan.
La IA creó una proteína, ¿y luego?
Una capacidad como esta, dicen los expertos, “exige un compromiso con los principios del desarrollo responsable”, por lo que la compañía está compartiendo sus datos, códigos y hallazgos en su sitio constantemente y también a través de revistas en lenguaje científico, apelando al beneficio público.
“Nuestra misión es desarrollar IA para comprender la biología en beneficio de la salud humana y la sociedad, a través de la colaboración con la comunidad científica y una investigación abierta, segura y responsable”, manifestaron.
Con IAs como estas, los científicos podrían comprender mejor los complejos sistemas de la biología, y a partir de allí, encontrar curas para enfermedades, por ejemplo.