连续概念混合：Transformer预训练新突破

纽约 – 近年来，大型语言模型（LLMs）的迅猛发展深刻地改变了自然语言处理领域，并催生了代码助手、搜索引擎、AI 助手等一系列核心应用。然而，当前 LLM 的训练范式主要依赖于“下一个 token 预测”，这种方法侧重于学习表层词汇（如“the”或“a”），导致模型在高级推理和概念理解方面面临挑战，同时也限制了其处理长期任务的能力。

为了突破这一瓶颈，Meta 与其他机构的研究者近日联合推出了一种名为“连续概念混合”（Continuous Concept Mixing, CoCoMix）的全新预训练框架。该框架巧妙地将离散的 token 预测与连续的概念学习相结合，为 Transformer 模型的预训练带来了新的可能性。

CoCoMix 的核心思想：超越 Token，拥抱概念

CoCoMix 的创新之处在于，它不再仅仅关注下一个 token 的预测，而是引入了从预训练的稀疏自编码器（Sparse Autoencoders, SAEs）中学习到的连续概念。这些 SAEs 能够有效地捕捉 LLM 中蕴含的高级语义信息，从而分离出有意义的潜在特征。

具体来说，CoCoMix 首先利用预训练的 SAE 提取语义概念，并根据“归因分数”选择最具影响力的概念。这些归因分数能够量化每个概念对模型输出的影响。随后，模型通过交叉熵损失进行训练，学习从其隐藏状态中预测这些选定的概念。一旦预测出多个概念，CoCoMix 会将它们压缩为单个连续概念，并通过与 token 嵌入交错的方式混合到模型的隐藏状态中，从而直接影响下一个 token 的预测。

实验结果：CoCoMix 显著提升 LLM 性能

研究人员在多个语言建模基准和不同规模的预训练模型（从百万级到十亿级参数规模）上对 CoCoMix 进行了广泛的评估。实验结果表明，CoCoMix 具有更高的采样效率，优于标准的下一个 token 预测、知识蒸馏以及插入停顿 token 等方法。

例如，当应用于一个 13.8 亿参数规模的模型时，CoCoMix 在减少 21.5% 训练 token 的情况下，实现了与下一个 token 预测相当的性能。更令人惊喜的是，CoCoMix 在弱监督到强监督的场景中表现出显著的改进，这意味着从小模型中提取的概念甚至可以作为监督更大模型训练的标签。

田渊栋团队再发力，Meta 大模型范式或将迎来变革

值得一提的是，CoCoMix 的研究团队中包括了 Meta 的知名研究员田渊栋。此前，Meta 提出的“大型概念模型”（LCM）同样也是通过概念而非 token 进行学习和推理，被认为是 LLM 范式变革的新起点。CoCoMix 的出现，无疑是 Meta 在探索以创新算法逐步取代“连续预测下一个 token”这一传统道路上迈出的又一坚实步伐。

CoCoMix 的潜在影响

CoCoMix 的成功不仅在于其卓越的性能，更在于其为 LLM 的未来发展指明了新的方向。通过引入概念学习，CoCoMix 有望提升 LLM 在高级推理、长期任务处理等方面的能力，并为模型的可解释性和可操纵性带来新的可能性。

未来展望

CoCoMix 的出现为 LLM 的预训练提供了一种全新的思路。随着研究的深入，我们有理由相信，CoCoMix 将在未来的 LLM 发展中扮演更加重要的角色，并推动自然语言处理领域取得更大的突破。

参考文献：