Moonshot AI发布MoBA：注意力机制新突破

摘要： Moonshot AI 近期推出了一种名为 MoBA（Mixture of Block Attention）的新型注意力机制，旨在提高大型语言模型（LLMs）处理长上下文任务的效率。该机制通过将上下文划分为多个块，并引入无参数的 top-k 门控机制，实现了在保持性能的同时显著降低计算复杂度的目标。MoBA 已在 Kimi 平台上得到实际验证，并开源了相关代码。

北京 – 在人工智能领域，处理长文本一直是研究人员面临的一项挑战。传统的注意力机制在处理长序列时计算成本极高，限制了大型语言模型在实际应用中的潜力。为了解决这一问题，Moonshot AI 近日推出了一种名为 MoBA（Mixture of Block Attention）的新型注意力机制，为长文本处理带来了新的突破。

MoBA 的核心思想是将长上下文划分为多个块（block），然后通过一种新颖的无参数 top-k 门控机制，让每个查询 token 动态选择最相关的键值（KV）块进行注意力计算。这种方法显著降低了计算复杂度，同时保持了与全注意力机制相当的性能。

MoBA 的主要功能和优势：

块稀疏注意力： 通过将上下文划分为多个块，MoBA 能够高效处理长序列，避免了传统注意力机制的计算瓶颈。
无参数门控机制： MoBA 的 top-k 门控机制能够为每个查询 token 动态选择最相关的块，确保模型只关注最有信息量的部分，无需额外的参数训练。
全注意力与稀疏注意力的无缝切换： MoBA 设计为全注意力的灵活替代品，能在全注意力和稀疏注意力模式之间无缝切换，提高效率，不影响性能。
高性能实现： MoBA 结合了 FlashAttention 和 MoE（混合专家模型）的优化技术，显著降低了计算复杂度。在处理 1M token 的长文本时，MoBA 的速度比传统全注意力机制快 6.5 倍，而在处理 10M token 时，速度提升可达 16 倍。
与现有模型的兼容性： MoBA 可以轻松集成到现有的 Transformer 模型中，无需进行大量训练调整。

技术原理：

MoBA 在设计上充分考虑了自回归语言模型的因果关系，确保查询 token 不能关注未来的块，并在当前块中应用因果掩码，避免信息泄露。此外，MoBA 支持细粒度的块划分，类似于 MoE（混合专家模型）中的专家划分策略，提升了性能，使其能够扩展到极长的上下文（如 10M token）。

应用场景：

MoBA 的高效长文本处理能力使其在多个领域具有广泛的应用前景：