“`markdown

AI 模型新突破:深度循环隐式推理或将超越思维链,开启 LLM 扩展新维度

北京 – 近日,人工智能领域迎来一项引人瞩目的创新。马里兰大学的研究团队提出了一种全新的语言模型架构,该架构通过深度循环隐式推理,在无需大量训练数据的情况下,实现了计算效率的显著提升。这项研究成果一经发布,便迅速在 AI 研究社区引发热议,被认为有望为大型语言模型(LLM)的扩展开辟新的路径。

挑战传统:隐式推理 vs. 思维链

长期以来,扩展 LLM 能力的主流方式主要集中在两个方向:一是扩大模型规模,通过增加参数量来提升性能;二是扩展测试时的计算量,例如通过“思维链”(Chain-of-Thought)方法,让模型生成更多的“思考”token,从而模拟人类的推理过程。

然而,这两种方法都存在一定的局限性。扩大模型规模需要消耗大量的算力和数据资源,而思维链方法则需要针对特定任务进行专门的训练,并且依赖于模型将内部推理过程转化为语言化的中间步骤,这在某些情况下可能并不高效。

马里兰大学的研究团队另辟蹊径,提出了一种基于深度循环(Recurrent Depth)的隐式推理方法。该方法的核心思想是,让模型在潜在空间中进行循环迭代的推理,而无需显式地生成大量的“思考”token。

深度循环:模拟人类的“潜意识”思考

人类在解决复杂问题时,往往会进行大量的“潜意识”思考,这些思考过程难以用语言完全表达。深度循环方法正是试图模拟这种“潜意识”的思考过程。

该方法通过在 Transformer 架构中引入循环单元,使模型能够在生成 token 之前执行任意数量的计算。循环单元以循环方式运行,持续处理和更新隐藏状态,使得计算得以无限延续。

这种方法无需定制化的训练数据,可以在标准训练数据上进行训练,并且可以根据计算预算灵活调整,在测试时通过额外计算资源增强能力。

实验验证:3.5B 参数媲美 50B 参数

为了验证深度循环方法的有效性,研究团队构建了一个概念验证模型,该模型拥有 35 亿参数和 8000 亿 token。实验结果表明,该模型在推理基准上的性能得到了显著提升,尤其是在需要复杂推理的数学和编程问题上,其性能最高相当于 500 亿参数的计算负载。

更令人惊喜的是,深度循环模型在推理时自然支持许多功能,例如每个 token 的自适应计算、(自)推测解码和 KV 缓存共享,这些功能在非循环模型中需要大量的调整和研究工作。

潜在优势:效率、灵活性与“思考”能力

与传统的思维链方法相比,深度循环方法具有多项潜在优势:

  • 更高的计算效率: 循环深度网络相较于标准 Transformer,每参数执行的浮点运算(FLOPs)更多,显著降低了大规模训练时 AI 计算卡之间的通信成本。
  • 更低的内存需求: 潜在推理模型在训练和推理时所需内存少于链式思维推理模型。
  • 促进“思考”而非记忆: 通过构建计算密集但参数规模较小的架构,该方法期望强化模型构建“思考”(即学习元策略、逻辑与抽象)而非单纯记忆来解决问题的先验倾向。

未来展望:LLM 扩展的第三维度

马里兰大学的研究团队认为,以这种方式扩展计算能力并不排斥通过延长(语言化)推理或增加预训练参数数量来提升模型性能。因此,它可能构建出模型性能扩展的第三维度。

这项研究成果为 LLM 的发展带来了新的希望,有望推动 AI 技术在更多领域的应用。

相关链接:

参考文献:

  • [论文标题] (作者,年份). 期刊名称,卷号(期号),页码.
  • [网站名称] (网址,访问日期).

(本文由AI新闻记者编辑整理报道)
“`


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注