引言:
在生命科学的浩瀚星空中,蛋白质如同宇宙中的星辰,以其复杂多样的结构和功能,构成了生物体的基石。数百万年来,自然进化精雕细琢,创造了无数功能各异的蛋白质,它们驱动着细胞的运转,维系着生命的延续。然而,我们对蛋白质世界的探索仍处于起步阶段,对蛋白质的理解和设计仍然面临诸多挑战。近日,一项突破性的研究成果在《科学》(Science)杂志上发表,为我们打开了一扇通往蛋白质设计新纪元的大门。由 EvolutionaryScale 公司开发的蛋白质语言模型 ESM3,通过模拟 5 亿年的进化历程,成功设计出功能性蛋白质,其序列与已知蛋白质差异巨大,这标志着人工智能在生物设计领域取得了里程碑式的进展。
正文:
蛋白质设计的新范式:从自然进化到人工智能模拟
进化的启示:蛋白质的自然选择
自然界中,蛋白质的进化是一个漫长而复杂的过程。通过基因突变、自然选择等机制,蛋白质的序列、结构和功能不断发生变化,以适应不同的环境和生物需求。这种自然进化的过程,孕育了生命的多样性和复杂性。然而,传统的蛋白质设计方法往往依赖于对已知蛋白质的改造,这在很大程度上限制了我们创造新型蛋白质的能力。
ESM3 的诞生:模拟 5 亿年进化
为了突破这一瓶颈,EvolutionaryScale 公司开发了 ESM3,这是一款基于大规模进化数据训练的多模态生成语言模型。ESM3 的核心思想是,通过学习自然进化过程中蛋白质序列、结构和功能之间的关系,从而模拟进化过程,设计出全新的蛋白质。该模型在超过 30 亿年的进化数据上进行了训练,使其能够理解蛋白质的内在规律,并预测蛋白质的性质。
ESM3 的独特之处在于其多模态能力。它不仅可以处理蛋白质的序列信息,还可以理解蛋白质的结构和功能,并将这些信息整合起来进行蛋白质设计。这种多模态的特性使得 ESM3 能够更准确地预测蛋白质的性质,并设计出具有特定功能的蛋白质。
突破性成果:设计出与已知蛋白差异巨大的功能性蛋白
ESM3 的强大能力在论文中得到了充分的展示。研究人员利用 ESM3 设计了一种名为 esmGFP 的新型荧光蛋白。令人惊讶的是,esmGFP 与已知最相似的荧光蛋白序列同源性仅为 58%。这意味着,esmGFP 的序列与已知蛋白质的差异巨大,它几乎是自然进化从未涉足的区域的产物。
然而,esmGFP 不仅在序列上与已知蛋白有显著差异,而且在实验中展现出与常见荧光蛋白相似的荧光强度。这表明,ESM3 成功地设计出了一种功能性蛋白质,其序列与已知蛋白质差异巨大,但仍然具有预期的生物活性。
这一突破性的成果,相当于跨越了超过 5 亿年的自然进化距离。它表明,人工智能已经具备了超越自然进化限制的能力,能够设计出全新的蛋白质,这为生物技术和医学领域带来了无限的想象空间。
ESM3 的技术细节:多模态推理与生物学对齐
多模态推理:序列、结构和功能的融合
ESM3 的核心技术在于其多模态推理能力。它能够同时处理蛋白质的序列、结构和功能信息,并将这些信息整合起来进行蛋白质设计。这种多模态的特性使得 ESM3 能够更准确地预测蛋白质的性质,并设计出具有特定功能的蛋白质。
具体而言,ESM3 通过学习大量的蛋白质序列、结构和功能数据,建立了一个复杂的模型,该模型能够理解这些数据之间的关系。当给定一个蛋白质设计任务时,ESM3 可以根据任务的要求,生成符合要求的蛋白质序列、结构和功能。
生物学对齐:提高设计保真度
除了多模态推理能力,ESM3 还具有生物学对齐能力。这意味着,ESM3 在设计蛋白质时,会考虑生物学上的约束条件,从而提高设计的保真度。例如,ESM3 在设计酶的活性位点时,会考虑酶的催化机制,确保设计的活性位点能够有效地催化反应。
生物学对齐能力使得 ESM3 设计的蛋白质更接近自然界中的蛋白质,从而提高了设计的成功率。这种能力是 ESM3 能够设计出功能性蛋白质的关键。
案例分析:PETase 活性位点支架设计
论文中,研究人员还展示了 ESM3 在设计 PETase 活性位点支架方面的应用。PETase 是一种能够降解塑料的酶,其活性位点是酶发挥作用的关键。研究人员利用 ESM3,通过序列、结构和功能的多模态提示,成功地为 PETase 活性位点设计了一个支架。
这一案例表明,ESM3 不仅可以设计全新的蛋白质,还可以用于改造现有蛋白质,使其具有新的功能。这为生物技术和医学领域提供了新的工具。
EvolutionaryScale 的使命:开放科学与合作
非盈利机构:推动生物学研究
EvolutionaryScale 是一家非盈利公司,其使命是通过与科学界合作以及开放、安全和负责任的研究,开发人工智能来理解生物学,造福人类健康和社会。自成立以来,ESM 项目一直致力于通过代码和模型发布来开放科学,该团队承诺将继续坚持下去。
EvolutionaryScale 的开放科学理念,使得更多的研究人员能够使用 ESM3,并在此基础上进行进一步的研究。这种开放合作的模式,将加速人工智能在生物学领域的应用,并推动生物技术和医学的进步。
种子轮融资与合作:强大的支持
EvolutionaryScale 公司成立于 2023 年 7 月,已经完成 1.42 亿美元种子轮融资,并已经与亚马逊(Amazon)和英伟达(NVIDIA)公司达成合作。这些强大的支持,为 EvolutionaryScale 的发展提供了坚实的基础。
亚马逊和英伟达在云计算和人工智能硬件方面的优势,将为 ESM3 的开发和应用提供强大的技术支持。这种合作模式,将加速 ESM3 的推广和应用,并推动人工智能在生物学领域的进步。
展望未来:人工智能驱动的生物设计
无限可能:生物技术与医学的未来
ESM3 的成功发布,标志着人工智能在生物设计领域取得了里程碑式的进展。它不仅为我们提供了一种新的蛋白质设计工具,也为生物技术和医学领域带来了无限的想象空间。
未来,我们可以利用 ESM3 设计出具有特定功能的酶,用于生物催化、生物降解等领域;我们可以利用 ESM3 设计出具有特定功能的抗体,用于疾病诊断和治疗;我们还可以利用 ESM3 设计出具有特定功能的生物材料,用于组织工程和再生医学。
挑战与机遇:持续探索与创新
当然,人工智能驱动的生物设计仍然面临诸多挑战。例如,我们对蛋白质的理解仍然不够深入,人工智能模型的预测能力仍然存在局限性。因此,我们需要持续探索和创新,不断提高人工智能模型的性能,并深入理解蛋白质的内在规律。
同时,我们也需要关注人工智能在生物设计领域的伦理和社会影响。我们需要确保人工智能的应用是安全、负责任和符合人类利益的。
结语:开启生物设计的新篇章
ESM3 的发布,标志着人工智能在生物设计领域取得了重大突破。它不仅为我们提供了一种新的蛋白质设计工具,也为我们打开了一扇通往生物设计新纪元的大门。我们相信,在人工智能的驱动下,生物技术和医学领域将迎来更加美好的未来。
参考文献:
- 论文链接:https://www.science.org/doi/10.1126/science.ads0018
- 相关内容:https://x.com/ScienceMagazine/status/1880012426503962927
- https://www.evolutionaryscale.ai/blog/esm3-release
- 机器之心报道:模拟5亿年进化的ESM3在Science发布了,可推理蛋白质序列、结构和功能
- 维基百科:语言模型
- Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.
Views: 2
