Generación simultánea de secuencia y estructura proteica mediante modelos de difusión latente basados en plegamiento de proteínas

La reciente introducción del modelo PLAID representa un avance en la generación de proteínas que combina simultáneamente la secuencia lineal y la estructura tridimensional, superando limitaciones previas. Este modelo utiliza el espacio latente de modelos de plegamiento proteico para generar nuevas proteínas, integrando datos multimodales que involucran tanto variables discretas (secuencia) como continuas (coordenadas atómicas).

Contexto: la evolución de la predicción y generación de proteínas

La concesión del Premio Nobel 2024 a AlphaFold2 confirmó el impacto de la inteligencia artificial en la biología estructural, destacando la capacidad de predecir estructuras tridimensionales a partir de secuencias. Sin embargo, el siguiente desafío reside en generar proteínas útiles desde cero, es decir, no solo predecir cómo se pliegan, sino diseñar tanto su secuencia como su estructura simultáneamente para fines aplicados como el diseño de fármacos.

Mecanismos detrás de PLAID y la generación multimodal

PLAID se basa en un modelo de difusión latente entrenado sobre el espacio latente de un modelo de plegamiento proteico (ESMFold), que a diferencia de AlphaFold2 usa un modelo lingüístico para integrar contexto secuencial. Durante el entrenamiento solo requiere secuencias —que son más abundantes y económicas que las estructuras cristalográficas—, aprendiendo a mapearlas en un espacio latente donde es posible muestrear nuevas proteínas. Durante la inferencia, se decodifican tanto la estructura 3D completa con todos sus átomos como la secuencia, resolviendo el reto de generar multimodalmente datos discretos y continuos.

Dinámica más amplia reflejada por este enfoque

La estrategia de PLAID revela una tendencia hacia el uso de modelos preentrenados para extraer conocimiento implícito en tareas relacionadas, en este caso, reutilizando conocimientos de plegamiento para diseñar proteínas nuevas. También refleja un cambio en biología computacional hacia el aprovechamiento de bases de datos masivas de secuencias, que superan en órdenes de magnitud a las bases de datos estructurales, optimizando la cantidad de información disponible para generación sin requerir etiquetas estructurales exhaustivas.

Implicancias y tensiones en el diseño de proteínas generativas

El modelo aborda retos cruciales para la aplicabilidad real, como la generación de estructuras atómicas completas, la especificidad según organismo para evitar respuestas inmunológicas no deseadas, y la incorporación de restricciones complejas derivadas de necesidades farmacéuticas, como la solubilidad y forma del medicamento. Esto plantea una tensión entre la capacidad computacional para manejar espacios latentes extensos y la necesidad práctica de controlar precisiones funcionales a partir de instrucciones textuales o composicionales, que el modelo intenta resolver mediante interfaces controlables por prompts.

En suma, PLAID ejemplifica cómo se puede expandir la función de modelos de predicción de proteínas hacia la generación controlada de biomoléculas complejas, combinando datos abundantes y modelos preentrenados para superponer multimodalidades, con la finalidad de abordar limitaciones prácticas en el diseño de fármacos y biológicos.

Fuentes

BAIR – Repurposing Protein Folding Models for Generation with Latent Diffusion

Contexto: la evolución de la predicción y generación de proteínas

Mecanismos detrás de PLAID y la generación multimodal

Dinámica más amplia reflejada por este enfoque

Implicancias y tensiones en el diseño de proteínas generativas

Fuentes

Related Posts

Leave a Comment Cancel Reply