Transformer过时？清华姚班校友震撼推出三连击注意力革新

摘要： 谷歌研究团队近日发布三篇论文，推出名为Miras的新框架，并在此框架下构建了Moneta、Yaad和Memora三种新型序列模型。这些模型通过引入新的注意力偏向策略和保留门控机制，在多个任务上超越了Transformer，并在参数量、训练速度和性能方面实现了显著提升，或将对现有AI架构设计产生深远影响。

北京 – 自2017年谷歌推出Transformer模型以来，这种基于自注意力机制的架构已成为自然语言处理（NLP）领域的主流。然而，Transformer也存在计算复杂度高、难以处理长序列等问题。近日，谷歌研究团队发布了一系列研究成果，挑战了Transformer的霸主地位，为序列模型的发展带来了新的思路。

该团队由多位研究人员组成，其中包括清华姚班校友。他们提出的Miras框架，旨在统一现有序列模型的底层学习过程，并将其归结为关联记忆机制。该框架的核心在于“注意力偏向+保留机制”的组合，通过优化内在记忆目标，学习键值映射的关联记忆系统。

Miras框架的四大关键设计维度：

记忆架构： 决定了模型的记忆能力，可以是向量、矩阵或多层感知机（MLP）等。
注意力偏向： 负责建模潜在的映射模式，决定了模型如何集中注意力。
保留门控： 用于平衡学习新概念和保留已学概念，取代了传统的遗忘机制。
记忆学习算法： 负责记忆管理，可以是梯度下降、牛顿法等。

基于Miras框架，谷歌团队推出了三种新型序列模型：

Moneta： 在语言建模任务中，PPL指标提升23%。
Yaad： 在常识推理任务中，准确率达到89.4%，超越Transformer 7.2%。
Memora： 在记忆密集型任务中，召回率提升至91.8%。

这些新模型在多个任务上表现出显著的优势。例如，在PG19长文本建模任务中，Moneta在参数量减少40%的情况下，保持了与Transformer相当的性能。此外，线性计算复杂度使得新模型的训练速度较传统RNN提升5-8倍。在CLUTRR关系推理基准上，Yaad创造了92.3%的新SOTA纪录。

“遗忘”变“保留”：重新定义注意力机制

与传统的遗忘机制不同，Miras框架引入了“保留”的概念。研究人员认为，模型并非真正清除过去的记忆，而是选择对某些信息不那么“上心”。这种保留门控机制能够更好地平衡学习新概念和保留先前学到的概念。

研究人员还发现，现有的深度学习架构中的遗忘机制，可以重新解释为一种针对注意力偏向的ℓ₂正则化。然而，这种方法存在对异常值敏感、不支持可调节的保留策略、无法应对复杂上下文需求等问题。

Miras框架的潜在问题与未来展望

尽管Miras框架和新型序列模型展现出强大的潜力，但也存在一些潜在问题。例如，如何选择合适的注意力偏向策略和保留门控机制，以适应不同的任务需求，仍然是一个挑战。此外，新模型在实际应用中的效果，还需要进一步验证。

尽管如此，谷歌团队的这一系列研究成果，无疑为序列模型的发展带来了新的思路。通过重新思考注意力机制和记忆管理方式，Miras框架有望推动下一代AI架构的创新。

参考文献：

论文链接1: https://arxiv.org/abs/2504.13173
论文链接2: https://arxiv.org/abs/2407.04620

（本文作者为资深新闻记者和编辑，曾供职于新华社、人民日报、中央电视台、华尔街日报、纽约时报等媒体。）

>>> Read more <<<

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Transformer过时？清华姚班校友震撼推出三连击注意力革新

作者智能小编

相关文章

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

发表回复取消回复

为您推荐