La inteligencia artificial ha revolucionado muchos campos, incluyendo la biotecnología. Un equipo de investigadores ha desarrollado un modelo de lenguaje llamado ProGen que utiliza aprendizaje profundo para generar secuencias de proteínas originales con propiedades predecibles. Este modelo ha sido entrenado en millones de secuencias de proteínas y puede ajustarse aún más a secuencias curadas y etiquetas para mejorar la generación controlable de proteínas.
Los resultados son sorprendentes: las proteínas artificiales generadas por ProGen han mostrado eficiencias catalíticas similares a las proteínas naturales, incluso en familias distintas de lisozimas. Además, el modelo se ha demostrado flexible y adaptable a diferentes familias de proteínas.
Este avance en el diseño y la ingeniería de proteínas abre un mundo de posibilidades en la investigación biotecnológica y puede tener un impacto significativo en la industria farmacéutica y médica.

Inteligencia artificial cambia el juego en la investigación de proteínas
El modelo de lenguaje llamado ProGen puede generar secuencias de proteínas con una función predecible en grandes familias de proteínas. Este modelo se ha entrenado en 280 millones de secuencias de proteínas de más de 19,000 familias y se ajusta con etiquetas de control que especifican las propiedades de las proteínas.
ProGen es un modelo de lenguaje de aprendizaje profundo desarrollado para generar secuencias de proteínas con una función predecible. Los resultados del estudio muestran que ProGen es capaz de generar proteínas artificiales con eficiencias catalíticas similares a las proteínas naturales. Esto se ha logrado en cinco familias distintas de lisozimas, con una identidad de secuencia tan baja como el 31,4%. Además, ProGen se ha adaptado fácilmente a otras familias de proteínas, como la corismato mutasa y la malato deshidrogenasa.
Este estudio demuestra la promesa de los modelos de lenguaje de aprendizaje profundo en aplicaciones biotecnológicas y su capacidad para generar proteínas originales con características predecibles.
En cuanto al código y los puntos de control de ProGen, los creadores los han compartido de forma pública en Zenodo. Por lo tanto, se pueden reproducir utilizando los detalles proporcionados en la sección de Métodos. La arquitectura del modelo y el protocolo de entrenamiento se pueden reproducir utilizando CTRL. Además, los datos utilizados en el estudio, incluyendo las secuencias de proteínas artificiales y naturales y la información sobre la actividad, están disponibles en los materiales complementarios.

Conclusión
Este estudio demuestra el potencial de la Inteligencia Artificial en la biotecnología, específicamente en la generación de proteínas artificiales. Al utilizar un modelo de lenguaje para entrenar a ProGen en un gran número de secuencias de proteínas, se pueden generar proteínas con características predecibles y útiles. Este avance es un paso importante hacia la creación de proteínas artificiales de alta calidad y su aplicación en diversas áreas, como la medicina y la agricultura.
Referencias:
Large language models generate functional protein sequences across diverse families: https://doi.org/10.1038/s41587-022-01618-2