微软等发布Seq2Symm:AI助力蛋白质对称性预测,速度提升至每小时8万个

西雅图/北京,2025年2月28日—— 在生物科学领域,蛋白质的结构与功能息息相关。近日,由微软、华盛顿大学大卫·贝克(David Baker)实验室以及麻省理工学院(MIT)等机构组成的科研团队,联合发布了一项突破性成果:一种名为Seq2Symm的全新解决方案,能够以前所未有的速度和精度预测蛋白质的对称性结构。该技术有望加速药物研发、生物工程等领域的研究进程。

相关研究论文已于2025年2月27日发表在《自然·通讯》(Nature Communications)期刊上。

蛋白质对称性:生命活动的基石

在复杂的生物系统中,蛋白质通常并非以单个分子的形式存在,而是组装成更高级的复合物发挥作用。其中,同源寡聚体是由多个相同蛋白质链相互作用形成的复合物,其空间排列呈现出特定的对称性。这种对称性对于蛋白质的稳定性、折叠以及执行特定生物学功能至关重要。

然而,长期以来,从蛋白质的氨基酸序列出发,精确预测其可能形成的对称结构,一直是生物信息学领域的一大挑战。

Seq2Symm:AI驱动的预测革命

为了解决这一难题,研究团队创新性地采用了人工智能技术,开发出Seq2Symm。该方案的核心在于对蛋白质语言模型ESM2进行微调。ESM2是一种预训练的深度学习模型,能够从大量的蛋白质序列数据中学习到蛋白质的内在规律。

通过微调ESM2,Seq2Symm能够仅以蛋白质的氨基酸序列作为输入,快速预测其可能形成的对称结构。实验结果表明,Seq2Symm的预测准确率显著超越了现有的方法。

更令人瞩目的是,Seq2Symm的处理速度惊人,能够达到每小时约80,000个蛋白质。这一速度上的突破,使得在蛋白组规模上进行对称性预测成为可能。

性能卓越,优势显著

研究团队对Seq2Symm进行了全面的性能评估,并将其与现有的基于模板搜索的方法(如HHSearch)进行了比较。结果显示,Seq2Symm在预测各种复杂的对称类型(如二面角对称性、高阶环状对称性、螺旋对称性和二十面体对称性)方面均表现出显著优势。

值得一提的是,研究人员发现,相比于使用多序列比对(MSA)的模型,基于单序列的Seq2Symm反而表现更好。这可能是因为同一蛋白质家族中的蛋白质可能具有不同的同源寡聚体对称性,MSA中引入的共进化信号反而会带来干扰。

应用前景广阔

Seq2Symm的快速和准确性,使其在多个领域具有广阔的应用前景:

  • 加速蛋白质结构预测: Seq2Symm的预测结果可以作为先验信息,引导AlphaFold2-multimer等结构预测算法,生成原子精度的同源寡聚体结构模型。
  • 蛋白组规模的对称性注释: Seq2Symm的高通量处理能力,使其能够对整个蛋白组进行对称性注释,帮助研究人员更好地理解蛋白质的功能和相互作用。
  • 药物设计与开发: 蛋白质的对称性结构对于药物与靶标蛋白的结合至关重要。Seq2Symm可以帮助研究人员设计出更有效的药物分子。

研究团队展望

研究团队表示,Seq2Symm的成功开发,标志着人工智能在蛋白质结构预测领域迈出了重要一步。他们希望Seq2Symm能够成为生物学研究人员的有力工具,推动生命科学领域的不断发展。

参考文献

代码链接

关于微软

微软(纳斯达克股票代码:MSFT)致力于赋能全球每一人、每一组织,成就不凡。

关于华盛顿大学贝克实验室

贝克实验室是华盛顿大学蛋白质设计研究所的一部分,致力于开发新的计算方法来预测和设计蛋白质结构和功能。

关于麻省理工学院

麻省理工学院(MIT)是世界顶尖的理工科大学,在科学、技术和创新领域享有盛誉。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注