元强化微调登场！LLM推理能力再突破

匹兹堡/北京 – 在大语言模型（LLM）推理能力提升的竞赛中，卡内基梅隆大学（CMU）的研究人员近日推出了一种名为“元强化微调”（Meta Reinforcement Fine-Tuning，MRT）的全新范式，旨在优化LLM在测试时计算的效率和效用。这项研究不仅挑战了当前LLM在利用测试时计算方面的效率，还为评估现有推理模型（如DeepSeek-R1）的有效性提供了一个新的指标。

LLM在推理领域的最新进展表明，通过扩展测试时计算，例如OpenAI的o1系列模型，可以显著提高推理能力。这些方法通常涉及训练模型生成比典型正确解决方案更长的轨迹，其中包含试图实现特定“算法”的token，例如反思、规划或线性搜索。然而，研究人员发现，当前的LLM在测试时计算的使用效率方面存在问题，它们可能在简单问题上消耗过多token，并且在token预算远大于训练预算时，未能有效发现更难问题的解决方案。

为了解决这些问题，CMU与HuggingFace的研究人员将优化测试时计算的挑战形式化为元强化学习（RL）问题。他们的研究论文《Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning》指出，理想的“元”行为是在过早采用一种方法（即“利用”片段）和尝试过多高风险策略（即“探索”片段）之间取得平衡。

从元RL的视角来看，探索和利用的最佳权衡相当于最小化输出token预算的累积悔值。这种悔值衡量了LLM与一个理想的oracle比较器相比，成功可能性的累积差异。通过训练LLM来最小化每个查询的累积悔值，MRT旨在学习一种在某种程度上与测试时预算无关的策略，使LLM在部署时仅消耗必要的token，同时在更大的token预算下运行时仍能取得进展。

MRT的核心在于一种新的微调方法，它通过最小化累积悔值的概念，为RL训练规定了密集的奖励（reward bonus）。这种进展奖励衡量了在生成给定片段之前和之后获得正确答案的似然的变化。

研究人员在两种设置下对MRT进行了评估。第一种设置涉及对基础模型（包括DeepScaleR-1.5B-Preview、DeepSeek-R1-Distill-Qwen-1.5B和DeepSeekR1-Distill-Qwen-7B）进行微调，并采用数学推理问题数据集。结果表明，MRT的表现始终优于结果奖励强化学习（GRPO），在多个基准测试上取得了15亿参数规模的SOTA结果。与基础模型相比，MRT的准确率提升是标准结果奖励RL的约2-3倍，而token效率是GRPO的1.5倍、是基础模型的5倍。值得注意的是，GRPO是DeepSeek-R1的关键强化学习算法。

在第二种设置中，研究人员对Llama 3.1进行微调以实现回溯，结果表明，MRT相较于STaR和GRPO均实现了1.6-1.7倍的token效率提升。

这些结果表明，MRT不仅能够提高LLM在推理任务中的准确率，还能显著提高其token使用效率，使其在实际应用中更具优势。

CMU的研究人员表示，MRT为评估现有推理模型在使用测试时计算的有效性提供了一个新的视角，并为未来的LLM研究和开发指明了方向。他们希望这项研究能够激发更多关于如何更有效地利用测试时计算，以及如何训练LLM以发现更难、分布外问题的解决方案的讨论和探索。

参考文献：