AI新突破：Evo 2揭示人类未见生物学模式

旧金山 – 人工智能（AI）正在以前所未有的方式改变科学研究，而一项最新的突破性成果预示着生物学领域即将迎来一场革命。由美国Arc研究所、斯坦福大学以及芯片制造商NVIDIA共同开发的Evo 2，是迄今为止最大的生物学AI模型，它能够从海量的基因组数据中发现人类无法察觉的模式，为理解生命奥秘和攻克疾病难题提供了全新的视角。

Evo 2基于128,000个基因组进行训练，涵盖了从人类到单细胞细菌和古细菌的生命之树。令人惊叹的是，它不仅可以从头开始编写整个染色体和小基因组，还能理解现有的DNA，包括与疾病相关的难以解释的“非编码”基因变异。

“人类很难理解生物序列，而Evo发现了人类无法看到的模式，”Evo 2的主要作者、斯坦福大学计算生物学家Brian Hie在接受《Quanta Magazine》采访时表示。

DNA：生命的语言？

Hie认为，DNA与人类语言之间存在着惊人的相似之处。就像语言由离散的“token”（如单词、字母）组成一样，DNA也是由离散的构建块（即DNA碱基对或氨基酸）组成的序列。更重要的是，DNA也具有其内在的结构，这些结构并非随机排列，而是像自然语言一样，存在模糊性，相同的序列在不同的上下文中可能意味着不同的事物。

这种相似性启发Hie将大型语言模型（LLM）应用于DNA研究。他解释说，分子生物学的中心法则是DNA编码RNA，RNA编码蛋白质。因此，如果在DNA上训练一个模型，就可以“免费”获得RNA和蛋白质的语言建模，因为DNA和蛋白质序列之间存在直接的对应关系。

Evo如何“阅读”DNA？

Evo的训练方式与传统的蛋白质语言模型有所不同。传统的蛋白质语言模型会将整个基因组剪切成小的蛋白质编码片段，然后分别训练这些片段。然而，这种方法忽略了蛋白质所在的广阔遗传背景，而这些遗传背景，特别是微生物基因组中，功能相关的蛋白质往往在基因组上直接相邻。

Hie意识到，在更基础的层次上训练模型——从蛋白质下降到DNA——可以扩展模型的能力。Evo通过分析由许多基因组组成的“小说”来学习，这需要强大的计算能力。Evo的上下文长度（即模型用于进行下一个碱基对预测的序列长度）相当于一个人一次可以看到的小说的一两页。

Evo的“进化可能性”预测

为了测试Evo的能力，研究人员给它提供了具有各种突变的蛋白质编码DNA序列，并要求它预测这些突变的“进化可能性”，即它们在自然界中存在的概率。Evo没有任何关于蛋白质功能的明确知识，它只知道过去进化中使用了哪些突变。

实验结果表明，Evo的预测非常准确。如果某个碱基对在Evo模型下具有高可能性，那么该碱基对很可能会保持或改善蛋白质的功能；如果该碱基对的可能性较低，那么将其插入序列中很可能会破坏蛋白质功能。

AI的“幻觉”：缺陷还是特性？

LLM容易出错，产生所谓的“幻觉”。然而，Hie认为，在生物学研究中，这些“幻觉”几乎可以被视为一种特性而非缺陷。如果某个奇特的新序列在细胞中起作用，生物学家会认为这是新颖的发现。

当然，Evo也会犯错。例如，它可能根据某个序列预测出一种蛋白质结构，但当在实验室中合成这种蛋白质时，结果可能是错误的。

开放共享，推动生物学研究

Evo 2的突破性成果不仅体现在其强大的功能上，还体现在其开放共享的精神上。科学家可以通过线上界面使用Evo 2，也可以免费下载其软件代码、数据和复制模型所需的其他参数。

Evo 2的发布无疑将加速生物学研究的进程，为理解基因功能、开发新药和治疗疾病提供新的工具和方法。

参考文献

Arc Institute. (n.d.). Evo2. Retrieved from https://github.com/ArcInstitute/evo2
Quanta Magazine. (2025, February 5). The Poetry Fan Who Taught an LLM to Read and Write DNA. Retrieved from https://www.quantamagazine.org/the-poetry-fan-who-taught-an-llm-to-read-and-write-dna-20250205/

>>> Read more <<<

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

AI新突破：Evo 2揭示人类未见生物学模式

作者智能小编

DNA：生命的语言？

Evo如何“阅读”DNA？

Evo的“进化可能性”预测

AI的“幻觉”：缺陷还是特性？

开放共享，推动生物学研究

参考文献

相关文章

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

发表回复取消回复

为您推荐

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

国之重器，芯之所向：新周期与大国博弈下的中芯国际(688981.SH)价值重估

作者智能小编

DNA：生命的语言？

Evo如何“阅读”DNA？

Evo的“进化可能性”预测

AI的“幻觉”：缺陷还是特性？

开放共享，推动生物学研究

参考文献

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复