AI解题能力飞跃：工具加持奥数成绩激增

上海，2024年4月1日 – 在人工智能领域，如何提升大语言模型（LLM）的推理能力一直是研究的热点。近日，上海交通大学、SII 和 GAIR 的研究团队联合推出了一种名为 ToRL (Tool-Integrated Reinforcement Learning) 的全新框架，该框架允许模型直接从基座模型开始，通过强化学习自主探索最优工具使用策略，从而显著提升了模型在数学推理任务中的表现。相关研究成果已发表，并开放了代码、数据集和模型供研究人员使用。

长期以来，研究人员在提升大模型工具使用能力时，普遍采用“先监督微调（SFT）再强化学习（RL）”的模式。这种模式虽然能带来性能提升，但也可能限制模型探索最优工具使用策略。ToRL框架打破了这一传统，直接从基座模型出发，通过强化学习让AI自主掌握工具使用的精髓。

研究团队的论文《ToRL: Scaling Tool-Integrated RL》详细阐述了该框架的设计理念和实验结果。论文指出，ToRL 框架的核心在于让模型在没有任何人为预设的前提下，通过奖励信号驱动，自主涌现出三大重要能力：

像人类专家般的工具选择直觉： 模型能够根据问题的特性，自主选择合适的工具进行辅助解题。
自我修正无效代码的元能力： 模型能够识别并修正自身生成的错误代码，提高解题效率。
动态切换计算与推理的解题智慧： 模型能够根据解题进度，灵活切换计算和推理模式，优化解题策略。

实验结果表明，ToRL 框架在数学推理任务上取得了显著突破。ToRL-7B 模型在 AIME24 (American Invitational Mathematics Examination) 上的准确率达到了 43.3%，比不使用工具的基线 RL 模型提高了 14%，比现有的工具集成大模型提高了 17%。这一成果表明，ToRL 框架能够有效提升大模型在复杂数学问题上的解题能力。

该研究团队在技术解析中提到，ToRL 框架将工具集成推理 (TIR) 与直接从基座语言模型开始的强化学习相结合，无需预先进行监督微调。在模型的推理过程中，当检测到代码终止标识符时，系统会暂停文本生成，提取最新的代码块执行，并将结构化执行结果插入上下文中，从而实现自然语言推理与代码工具的交叉验证。

为了平衡训练效率，研究团队还引入了超参数 C，用于控制每次响应生成允许的最大工具调用次数。此外，他们还选择了稳定、准确和响应迅速的代码解释器，并对错误消息进行处理，以减少上下文长度，提高训练稳定性。

实验结果还显示，ToRL 模型在多个数学基准测试中均表现优异。例如，ToRL-1.5B 模型的平均准确率达到了 48.5%，超过了 Qwen2.5-Math-1.5B-Instruct 和 Qwen2.5-Math-1.5B-Instruct-TIR 等模型。在 7B 参数模型中，性能提升更加显著，ToRL-7B 达到了 62.1% 的平均准确率，比具有相同基础模型的其他开源模型高出 14.7%。

ToRL 框架的成功，为大模型推理能力的提升提供了一种新的思路。它表明，通过强化学习，大模型可以自主探索最优工具使用策略，从而在复杂任务中取得更好的表现。这一研究成果有望推动人工智能在数学、科学等领域的应用。

参考文献：