DeepSeek、Kimi同日发布新注意力架构，正面交锋！

“`markdown

月之暗面发布MoBA：挑战DeepSeek NSA，新注意力架构点燃AI领域新战火

摘要： 近日，人工智能领域迎来一场技术竞赛。DeepSeek发布新型注意力机制NSA，引发广泛关注。与此同时，月之暗面也发布了名为MoBA的新型注意力架构，并开源了相关代码。这场“撞车”事件，不仅展现了AI技术发展的蓬勃活力，也预示着注意力机制研究进入新的阶段。

北京 – 人工智能领域的技术创新正以前所未有的速度发展。就在昨天下午，DeepSeek发布了一篇关于改进版注意力机制NSA的论文，其创始人兼CEO梁文锋亲自参与，引发了业界的广泛关注。然而，几乎在同一时间，月之暗面也发布了一篇主题相似的论文，其创始人兼CEO杨植麟同样是署名作者之一。更引人注目的是，月之暗面不仅发布了论文，还公开了相关代码，并经过了一年的实际部署验证，确保了其有效性和稳健性。

月之暗面发布的这项技术名为MoBA，即Mixture of Block Attention，可以直译为“块注意力混合”。据介绍，MoBA是一种将混合专家（MoE）原理应用于注意力机制的创新方法。该方法遵循“更少结构”原则，不引入预定义的偏见，而是让模型自主决定关注哪些位置。

MoBA：打破传统注意力机制的瓶颈

近年来，大型语言模型（LLM）的发展突飞猛进，人们对其处理复杂任务的能力寄予厚望。实现通用人工智能（AGI）的关键之一，便是处理、理解和生成长序列的能力。然而，传统注意力机制的计算复杂度呈二次函数增长，这使得扩展LLM的序列长度变得异常困难。

为了解决这一难题，研究人员纷纷探索利用注意力分数的固有稀疏性。现有方法通常利用预定义的结构约束，例如基于sink的注意力机制或滑动窗口注意力机制。但这些方法往往高度依赖于特定任务，限制了模型的泛化能力。另一种方法是采用动态稀疏注意力机制，但这些方法并未显著缓解长上下文模型的高昂训练成本。

线性注意力模型，如Mamba、RWKV和RetNet，通过线性近似替代了传统的基于softmax的注意力机制，降低了长序列处理的计算开销。然而，线性注意力与传统注意力机制存在显著差异，适配现有的Transformer模型通常需要高昂的转换成本，或者需要从头开始训练全新的模型。

MoBA的创新之处：混合专家与块注意力

月之暗面提出的MoBA架构，旨在设计一种稳健且适应性强的注意力机制，既能保留原始Transformer框架，又能遵循“更少结构”的原则，使模型能够在不依赖预定义偏差的情况下自主决定关注哪些部分。

MoBA基于混合专家系统（MoE）的创新原理，并将其应用于Transformer模型的注意力机制中。MoE此前主要应用于Transformer的前馈网络（FFN）层，而MoBA首次将其引入长上下文注意力机制中，允许动态选择与每个查询token相关的历史关键块和值块。

MoBA通过将上下文划分为块，并采用门控机制选择性地将查询token路由到最相关的块，解决了传统注意力机制的计算效率低下的问题。这种块稀疏注意力显著降低了计算成本，为更高效地处理长序列铺平了道路。

未来展望：注意力机制的演进与AGI的实现

MoBA的发布，无疑为注意力机制的研究注入了新的活力。通过动态选择最具信息量的关键块，MoBA提高了性能和效率，这对于涉及大量上下文信息的任务尤为有益。

这场DeepSeek NSA与月之暗面MoBA的“撞车”事件，预示着注意力机制研究进入了新的阶段。随着技术的不断发展，我们有理由相信，更高效、更强大的注意力机制将不断涌现，为实现通用人工智能（AGI）的目标奠定坚实的基础。

参考文献：

MoonshotAI. (2024). MoBA: Mixture of Block Attention for Long-Context LLMs. https://github.com/MoonshotAI/MoBA/blob/master/MoBATechReport.pdf
MoonshotAI. (2024). MoBA: Mixture of Block Attention for Long-Context LLMs. https://github.com/MoonshotAI/MoBA
“`

>>> Read more <<<