旧金山 – 人工智能(AI)正在以前所未有的方式改变科学研究,而一项最新的突破性成果预示着生物学领域即将迎来一场革命。由美国Arc研究所、斯坦福大学以及芯片制造商NVIDIA共同开发的Evo 2,是迄今为止最大的生物学AI模型,它能够从海量的基因组数据中发现人类无法察觉的模式,为理解生命奥秘和攻克疾病难题提供了全新的视角。

Evo 2基于128,000个基因组进行训练,涵盖了从人类到单细胞细菌和古细菌的生命之树。令人惊叹的是,它不仅可以从头开始编写整个染色体和小基因组,还能理解现有的DNA,包括与疾病相关的难以解释的“非编码”基因变异。

“人类很难理解生物序列,而Evo发现了人类无法看到的模式,”Evo 2的主要作者、斯坦福大学计算生物学家Brian Hie在接受《Quanta Magazine》采访时表示。

DNA:生命的语言?

Hie认为,DNA与人类语言之间存在着惊人的相似之处。就像语言由离散的“token”(如单词、字母)组成一样,DNA也是由离散的构建块(即DNA碱基对或氨基酸)组成的序列。更重要的是,DNA也具有其内在的结构,这些结构并非随机排列,而是像自然语言一样,存在模糊性,相同的序列在不同的上下文中可能意味着不同的事物。

这种相似性启发Hie将大型语言模型(LLM)应用于DNA研究。他解释说,分子生物学的中心法则是DNA编码RNA,RNA编码蛋白质。因此,如果在DNA上训练一个模型,就可以“免费”获得RNA和蛋白质的语言建模,因为DNA和蛋白质序列之间存在直接的对应关系。

Evo如何“阅读”DNA?

Evo的训练方式与传统的蛋白质语言模型有所不同。传统的蛋白质语言模型会将整个基因组剪切成小的蛋白质编码片段,然后分别训练这些片段。然而,这种方法忽略了蛋白质所在的广阔遗传背景,而这些遗传背景,特别是微生物基因组中,功能相关的蛋白质往往在基因组上直接相邻。

Hie意识到,在更基础的层次上训练模型——从蛋白质下降到DNA——可以扩展模型的能力。Evo通过分析由许多基因组组成的“小说”来学习,这需要强大的计算能力。Evo的上下文长度(即模型用于进行下一个碱基对预测的序列长度)相当于一个人一次可以看到的小说的一两页。

Evo的“进化可能性”预测

为了测试Evo的能力,研究人员给它提供了具有各种突变的蛋白质编码DNA序列,并要求它预测这些突变的“进化可能性”,即它们在自然界中存在的概率。Evo没有任何关于蛋白质功能的明确知识,它只知道过去进化中使用了哪些突变。

实验结果表明,Evo的预测非常准确。如果某个碱基对在Evo模型下具有高可能性,那么该碱基对很可能会保持或改善蛋白质的功能;如果该碱基对的可能性较低,那么将其插入序列中很可能会破坏蛋白质功能。

AI的“幻觉”:缺陷还是特性?

LLM容易出错,产生所谓的“幻觉”。然而,Hie认为,在生物学研究中,这些“幻觉”几乎可以被视为一种特性而非缺陷。如果某个奇特的新序列在细胞中起作用,生物学家会认为这是新颖的发现。

当然,Evo也会犯错。例如,它可能根据某个序列预测出一种蛋白质结构,但当在实验室中合成这种蛋白质时,结果可能是错误的。

开放共享,推动生物学研究

Evo 2的突破性成果不仅体现在其强大的功能上,还体现在其开放共享的精神上。科学家可以通过线上界面使用Evo 2,也可以免费下载其软件代码、数据和复制模型所需的其他参数。

Evo 2的发布无疑将加速生物学研究的进程,为理解基因功能、开发新药和治疗疾病提供新的工具和方法。

参考文献


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注