文本生成蛋白质：UC伯克利突破！

摘要： 加州大学伯克利分校等机构的研究者们提出了一种名为ProteinDT的多模态框架，该框架利用文本描述进行蛋白质设计，并在文本生成蛋白质任务中取得了超过90%的准确率。该研究为AI辅助蛋白质设计开辟了新的路径，有望加速蛋白质发现和工程改造。

北京 – 机器学习在蛋白质发现领域展现出巨大的潜力，但当前AI辅助的蛋白质设计主要依赖于蛋白质的序列和结构信息，而忽略了蕴含大量知识的文本数据。为了填补这一空白，来自加州大学伯克利分校（UC Berkeley）、加州理工学院（California Institute of Technology）等机构的研究者们联合提出了一种利用文本描述进行蛋白质设计的多模态框架——ProteinDT。相关研究已发表在 Nature Machine Intelligence 上。

该框架包含三个连续步骤：

ProteinCLAP： 对齐文本和蛋白质序列两种模态的表征空间，实现双模态表征对齐。
Facilitator： 从文本模态生成蛋白质表征。
解码器： 根据表征生成蛋白质序列。

研究概览

受基础模型突破的启发，计算化学领域已证明结合药物文本描述与化学结构信息的多模态机制能有效促进小分子药物发现。该研究团队将这一思路应用于蛋白质领域，致力于挖掘蛋白质的两种模态：蛋白质序列与文本描述。

蛋白质序列： 由20种氨基酸组成，决定了蛋白质的折叠方式与功能特性。
文本描述： 来源于公开数据源（如UniProt），蕴含丰富的蛋白质知识，包括参与的生物过程、执行的分子功能以及定位的细胞组分。

研究团队认为，这两种模态分别聚焦于表达内部生化组成与领域专家总结的高阶知识，因此探索两者的融合对完成更具挑战性的蛋白质设计任务（如零样本泛化）具有重要意义。

ProteinDT框架核心流程

对比性语言-蛋白质预训练（ProteinCLAP）： 通过从UniProt的Swiss-Prot子集提取的441,000个文本-蛋白质对数据集SwissProtCLAP，采用对比学习范式实现双模态表征对齐。
ProteinFacilitator模型： 从文本模态生成蛋白质序列表征，采用高斯分布估计条件分布。
解码器模型： 基于上一步产生的表征信息生成蛋白质序列。

实验结果

为了验证ProteinDT的多功能特性，研究团队设计了三项下游任务：

文本生成蛋白质任务： 根据目标蛋白质特性的文本描述prompt生成蛋白质序列，最优检索准确率可超90%。
零样本文本引导的蛋白质编辑任务： 输入文本prompt和蛋白质序列，通过潜在空间插值法或潜在优化法注入文本模态信息，并将学得的表征用于蛋白质生成。实验显示ProteinDT在12项编辑任务中均取得最佳命中率。
蛋白质属性预测任务： 用于评估ProteinCLAP学习表征的稳健性与泛化能力。与六种前沿蛋白质序列表征方法相比，ProteinDT在四项基准测试中表现最优。

结论

该研究提出的ProteinDT框架成功地将文本信息融入到蛋白质设计中，并在多个任务中取得了显著的成果。这表明利用多模态信息能够有效提升AI辅助蛋白质设计的性能，为蛋白质工程和生物医药领域带来新的可能性。

参考文献