RL助力推理？清华研究揭示大模型能力边界

近年来，人工智能领域风起云涌，大型语言模型（LLMs）的崛起更是引人瞩目。尤其是在数学、代码等复杂任务中，通过可验证奖励的强化学习（RLVR）训练的大模型表现出了惊人的推理能力，仿佛一夜之间打通了“任督二脉”。强化学习也因此被视为提升大模型推理能力的关键推手。

然而，在这一片欣欣向荣的景象之下，一个至关重要的问题却始终悬而未决：强化学习究竟能否赋予大模型超越其基础模型（基座模型）的全新推理能力？换句话说，大模型推理能力的提升，究竟是强化学习的功劳，还是仅仅挖掘了基座模型本身就具备的潜力？

近日，清华大学LeapLab团队联合上海交通大学，针对这一核心问题展开了一项深入的实证研究。他们的研究成果，通过一系列实验现象，揭示了一个令人深思的结论：当前的RLVR方法，或许并未真正突破基座模型的能力上限，强化学习的作用，可能更多地体现在更高效地采样，而最终输出的正确答案，早已潜藏在基座模型的“基因”之中。

这项研究的论文题为《强化学习真的能激励大模型超越基座模型的推理能力吗？》（Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?），已发布在arXiv预印本平台上（https://arxiv.org/abs/2504.13837），并提供了一个展示页面（https://limit-of-RLVR.github.io）供读者查阅。

挑战主流观点：RLVR并非万能钥匙

长期以来，RLVR被认为是提升大模型推理能力的有效途径。其基本原理是，通过强化学习算法，让模型在与环境的交互中学习，并根据获得的奖励来调整自身的行为，从而逐步提升解决问题的能力。在数学、代码等任务中，RLVR训练的大模型往往能取得显著的性能提升，这似乎印证了强化学习的强大作用。

然而，清华大学LeapLab团队的研究却对这一主流观点提出了挑战。他们认为，仅仅观察到性能提升，并不能直接得出强化学习赋予了模型全新推理能力的结论。更合理的解释是，强化学习可能只是更有效地挖掘了基座模型本身就具备的推理潜力。

为了验证这一假设，研究团队设计了一系列精心控制的实验，涵盖了数学、代码和视觉推理三大领域，旨在探究RLVR训练的大模型与基座模型之间的真实差异。

三大领域实验：揭示RLVR的局限性

1. 数学推理：强化学习的“选择性遗忘”

在数学推理方面，研究团队设计了一系列复杂的数学问题，并分别使用RLVR和传统的监督学习方法训练大模型。实验结果显示，RLVR训练的模型在某些特定类型的数学问题上表现出色，甚至超越了基座模型。

然而，深入分析后，研究人员发现，RLVR训练的模型并非真正理解了数学原理，而是通过强化学习，学会了“选择性遗忘”。具体来说，RLVR训练的模型会倾向于记住那些能够获得高奖励的解题策略，而忽略那些奖励较低的策略。这种“选择性遗忘”在某些情况下可以提高解题效率，但也可能导致模型在面对新的、未知的数学问题时束手无策。

更令人惊讶的是，在某些情况下，基座模型在解决数学问题时的表现甚至优于RLVR训练的模型。研究人员推测，这可能是因为RLVR训练过程中的奖励机制存在偏差，导致模型过度优化了某些特定的解题策略，反而牺牲了对数学原理的整体理解。

2. 代码生成：RLVR的“路径依赖”

在代码生成方面，研究团队设计了一系列编程任务，并分别使用RLVR和传统的监督学习方法训练大模型。实验结果显示，RLVR训练的模型在生成特定类型的代码时表现出色，能够生成高质量、可执行的代码。

然而，研究人员发现，RLVR训练的模型存在严重的“路径依赖”问题。具体来说，模型的代码生成能力高度依赖于训练过程中所遇到的具体编程任务。如果模型在训练过程中没有遇到某种类型的编程任务，那么即使它已经具备了相关的编程知识，也难以生成相应的代码。

相比之下，基座模型虽然在生成特定类型的代码时可能不如RLVR训练的模型，但它具有更强的泛化能力，能够适应各种不同的编程任务。这表明，RLVR训练可能限制了模型的探索空间，使其过度专注于特定的代码生成模式，从而牺牲了泛化能力。

3. 视觉推理：RLVR的“表面特征”

在视觉推理方面，研究团队设计了一系列视觉推理任务，例如识别图像中的物体、判断图像之间的关系等。他们发现，RLVR训练的模型在某些视觉推理任务中表现出色，能够准确地识别图像中的物体，并正确地判断图像之间的关系。

然而，深入分析后，研究人员发现，RLVR训练的模型往往只关注图像的表面特征，而忽略了图像的深层含义。例如，在识别图像中的物体时，模型可能会根据物体的颜色、形状等表面特征进行判断，而忽略了物体的语义信息。

这种“表面特征”导向的推理方式，使得模型在面对复杂的、具有挑战性的视觉推理任务时表现不佳。相比之下，基座模型虽然在识别图像中的物体时可能不如RLVR训练的模型准确，但它具有更强的语义理解能力，能够更好地理解图像的深层含义。

结论：RLVR并非“灵丹妙药”，基座模型仍是关键

通过上述三大领域的系统性实验，清华大学LeapLab团队的研究揭示了一个重要的结论：当前的RLVR方法，或许并未真正突破基座模型的能力上限。强化学习的作用，可能更多地体现在更高效地采样，而最终输出的正确答案，早已潜藏在基座模型的“基因”之中。

换句话说，RLVR并非提升大模型推理能力的“灵丹妙药”，基座模型仍然是决定模型推理能力的关键因素。如果基座模型本身就不具备解决特定问题的能力，那么即使通过RLVR训练，也难以让模型获得超越其能力上限的推理能力。

这项研究的意义在于，它提醒我们，在追求大模型推理能力提升的过程中，不能过度依赖强化学习，而应该更加重视基座模型的构建。只有构建出具有强大推理能力的基座模型，才能为后续的强化学习训练奠定坚实的基础。

未来展望：如何真正解锁大模型推理潜能？

既然RLVR并非万能钥匙，那么如何才能真正解锁大模型的推理潜能呢？清华大学LeapLab团队的研究也为我们指明了未来的研究方向：

改进基座模型架构： 探索新的基座模型架构，例如Transformer-XL、Sparse Transformer等，以提高模型的推理能力和泛化能力。
设计更有效的奖励机制： 设计更有效的奖励机制，避免奖励偏差，鼓励模型探索更广泛的解题策略，从而提高模型的整体推理能力。
引入外部知识： 将外部知识融入到强化学习训练过程中，例如知识图谱、常识推理等，以提高模型的语义理解能力和推理能力。
探索多模态学习： 将强化学习与多模态学习相结合，例如将文本、图像、语音等多种模态的信息融入到训练过程中，以提高模型的综合推理能力。

总而言之，解锁大模型的推理潜能，需要从基座模型、奖励机制、外部知识和多模态学习等多个方面入手，进行系统性的研究和探索。只有这样，我们才能真正突破基座模型的“基因锁”，让大模型具备超越人类的推理能力，为人工智能的发展开辟新的篇章。

这项研究无疑为人工智能领域敲响了警钟，提醒我们不能盲目迷信强化学习，而应该更加理性地看待其作用。同时，它也为未来的研究指明了方向，鼓励我们不断探索新的方法，以真正解锁大模型的推理潜能，推动人工智能技术的发展。

>>> Read more <<<

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

RL助力推理？清华研究揭示大模型能力边界

作者智能小编

挑战主流观点：RLVR并非万能钥匙