旧金山 – 当DeepSeek-R1、OpenAI o1等大型推理模型还在竞相增加计算量,试图通过“思考”提升性能时,加州大学伯克利分校与艾伦人工智能研究所的一项最新研究却给出了截然不同的答案:推理模型并非必须“思考”,有时跳过显式思维链反而能实现更高效、更准确的推理。这项研究无疑给火热的AI领域投下了一颗重磅炸弹,引发广泛关注。
这项题为《Reasoning Models Can Be Effective Without Thinking》的研究指出,显式的思考过程会显著增加token的使用量和延迟,导致推理效率低下。研究人员通过对比“Thinking”(传统推理方式)和“NoThinking”(跳过显式思考过程)两种方法,发现后者在特定条件下表现更优。
亚马逊研究多模态LLM的博士后Gabriele Berton精辟地总结道:“NoThinking方法本质上就是强制模型输出:‘思考:好吧,我想我已经思考完了。’”
“Thinking” vs. “NoThinking”:两种推理模式的较量
为了更清晰地理解这项研究,我们需要先了解“Thinking”和“NoThinking”的具体定义。
-
Thinking: 这是目前大多数现代推理模型采用的默认方法。模型在思考框内进行推理,以
<|beginning_of_thinking|>和<|end_of_thinking|>为标志,然后给出最终解决方案和答案。 -
NoThinking: 这种方法通过提示绕过显式推理过程,直接生成最终解决方案和答案。研究人员通过在解码过程中强制思维框为空来实现这一点,即让模型直接输出
<|beginning_of_thinking|> Okay, I think I have finished thinking. <|end_of_thinking|>。
研究人员还设置了token使用量限制,当模型达到token预算时,会被迫生成“最终答案”,以确保及时得到结果。
实验结果: “不思考”有时更胜一筹
研究团队使用DeepSeek-R1-Distill-Qwen-32B作为主要模型,并在多个具有挑战性的推理基准上进行了实验,包括数学竞赛、编码、奥林匹克竞赛问题和定理证明等任务。他们采用多样本准确率(pass@k)作为评估指标,衡量在每个问题所生成的n个完整回复中,随机选取k个样本,其中至少有一个正确输出的概率。
实验结果显示,在未控制token预算的情况下,NoThinking在MiniF2F和ProofNet数据集上的表现与Thinking相当,但token使用量却显著减少3.3–3.7倍。在其他数据集上,随着k值的增加,NoThinking与Thinking的差距逐渐缩小,当k值最大时,两者的表现相当,但NoThinking的token使用量仍比Thinking少2.0–5.1倍。
更令人惊讶的是,在控制token预算的情况下,NoThinking的效果甚至优于Thinking。这表明,在资源有限的情况下,“不思考”可能是一种更有效的推理策略。
研究意义与未来展望
这项研究颠覆了我们对推理模型的传统认知,挑战了“模型必须通过大量计算和思考才能实现高效推理”的观点。它表明,在某些情况下,跳过显式思考过程反而能提高推理效率和准确性,尤其是在资源受限的情况下。
这项研究的意义在于:
- 降低推理成本: 通过减少token使用量,可以显著降低推理成本,使AI技术更易于普及和应用。
- 提高推理效率: 在延迟敏感的应用场景中,NoThinking方法可以更快地给出答案,提高用户体验。
- 探索新的模型架构: 这项研究为我们探索新的推理模型架构提供了思路,例如,可以设计一种能根据任务特点自动选择是否进行显式思考的模型。
当然,这项研究也存在一定的局限性。例如,NoThinking方法可能不适用于所有类型的推理任务,尤其是在需要深度思考和复杂推理的场景中。未来的研究可以进一步探索NoThinking方法的适用范围,并研究如何将其与其他推理技术相结合,以实现更高效、更准确的推理。
参考文献
- Reasoning Models Can Be Effective Without Thinking: https://arxiv.org/pdf/2504.09858
(本文部分信息来源于机器之心报道)
Views: 2