Meta再卷Transformer：多Token破局注意力瓶颈

旧金山 – 在自然语言处理领域，Transformer模型及其注意力机制一直是研究的热点。然而，当处理包含大量Token的上下文时，标准注意力机制往往难以精准捕捉关键信息，忽略干扰因素。近日，Meta公司发布了一种名为Multi-Token Attention (MTA) 的新型Transformer注意力机制，旨在突破传统注意力机制的瓶颈，提升模型在复杂上下文中的表现。

标准注意力的局限性

标准多头注意力机制通过计算查询向量与上下文Token对应的键向量之间的点积相似性来确定注意力权重。与查询相似的关键字会获得更高的权重，从而影响输出向量。例如，当查询向量与“Alice”Token相关时，模型可以定位上下文中所有提及“Alice”的内容。然而，这种机制的根本限制在于，每个注意力权重仅取决于单个关键字和查询向量，这使得模型难以识别需要多个Token共同表达的上下文信息。

例如，要查找同时提到“Alice”和“rabbit”的句子，查询向量需要同时编码这两个Token的信息。虽然可以通过Transformer的层将多个Token编码成一个向量，但这需要增加模型维度，并消耗大量计算资源。

Multi-Token Attention的创新

为了解决上述问题，Meta的研究人员提出了Multi-Token Attention (MTA)，其核心思想是利用多个向量对的相似性来确定注意力集中的位置。MTA通过对现有注意力机制进行简单的修改来实现这一目标，即在注意力权重上进行卷积运算，该运算在键、查询和注意力头三个维度上运行。这种设计允许注意力权重以相邻键、之前的查询和其他头为条件。

具体来说，MTA可以先分别查找“Alice”和“rabbit”的提及，然后将这些注意力组合在一起，只关注两者同时存在的地方。

MTA的技术细节

MTA由三个关键部分组成：

键-查询卷积（key-query convolution）： 在注意力logit上进行卷积操作，结合来自多个查询和键Token的信息。
头混合卷积（head mixing convolution）： 在头组中使用头卷积，将不同头的注意力权重组合起来，实现跨头信息共享。
带深度缩放的组归一化： 抵消残差流，改善梯度流。

实验结果与结论

研究人员通过一系列实验验证了MTA的有效性。首先，在一个玩具任务中，MTA轻松解决了标准注意力机制难以处理的问题。其次，在一个包含1050亿个词库的880M参数模型上进行预训练，结果表明MTA在验证复杂度和标准基准任务方面都有所改进，而参数数量仅增加了0.001%。此外，在长语境任务（如Needle-in-the-Haystack和BabiLong）上，MTA的表现也明显优于基线模型。

未来展望

Multi-Token Attention的提出为Transformer模型的注意力机制带来了新的思路，有望在自然语言处理领域取得更广泛的应用。该研究表明，通过对现有注意力机制进行巧妙的改进，可以有效提升模型在复杂上下文中的表现。未来，我们可以期待更多基于MTA的创新应用，例如在机器翻译、文本摘要和对话生成等领域。

参考文献