上海,2024年4月1日 – 在人工智能领域,如何提升大语言模型(LLM)的推理能力一直是研究的热点。近日,上海交通大学、SII 和 GAIR 的研究团队联合推出了一种名为 ToRL (Tool-Integrated Reinforcement Learning) 的全新框架,该框架允许模型直接从基座模型开始,通过强化学习自主探索最优工具使用策略,从而显著提升了模型在数学推理任务中的表现。相关研究成果已发表,并开放了代码、数据集和模型供研究人员使用。
长期以来,研究人员在提升大模型工具使用能力时,普遍采用“先监督微调(SFT)再强化学习(RL)”的模式。这种模式虽然能带来性能提升,但也可能限制模型探索最优工具使用策略。ToRL框架打破了这一传统,直接从基座模型出发,通过强化学习让AI自主掌握工具使用的精髓。
研究团队的论文《ToRL: Scaling Tool-Integrated RL》详细阐述了该框架的设计理念和实验结果。论文指出,ToRL 框架的核心在于让模型在没有任何人为预设的前提下,通过奖励信号驱动,自主涌现出三大重要能力:
- 像人类专家般的工具选择直觉: 模型能够根据问题的特性,自主选择合适的工具进行辅助解题。
- 自我修正无效代码的元能力: 模型能够识别并修正自身生成的错误代码,提高解题效率。
- 动态切换计算与推理的解题智慧: 模型能够根据解题进度,灵活切换计算和推理模式,优化解题策略。
实验结果表明,ToRL 框架在数学推理任务上取得了显著突破。ToRL-7B 模型在 AIME24 (American Invitational Mathematics Examination) 上的准确率达到了 43.3%,比不使用工具的基线 RL 模型提高了 14%,比现有的工具集成大模型提高了 17%。这一成果表明,ToRL 框架能够有效提升大模型在复杂数学问题上的解题能力。
该研究团队在技术解析中提到,ToRL 框架将工具集成推理 (TIR) 与直接从基座语言模型开始的强化学习相结合,无需预先进行监督微调。在模型的推理过程中,当检测到代码终止标识符时,系统会暂停文本生成,提取最新的代码块执行,并将结构化执行结果插入上下文中,从而实现自然语言推理与代码工具的交叉验证。
为了平衡训练效率,研究团队还引入了超参数 C,用于控制每次响应生成允许的最大工具调用次数。此外,他们还选择了稳定、准确和响应迅速的代码解释器,并对错误消息进行处理,以减少上下文长度,提高训练稳定性。
实验结果还显示,ToRL 模型在多个数学基准测试中均表现优异。例如,ToRL-1.5B 模型的平均准确率达到了 48.5%,超过了 Qwen2.5-Math-1.5B-Instruct 和 Qwen2.5-Math-1.5B-Instruct-TIR 等模型。在 7B 参数模型中,性能提升更加显著,ToRL-7B 达到了 62.1% 的平均准确率,比具有相同基础模型的其他开源模型高出 14.7%。
ToRL 框架的成功,为大模型推理能力的提升提供了一种新的思路。它表明,通过强化学习,大模型可以自主探索最优工具使用策略,从而在复杂任务中取得更好的表现。这一研究成果有望推动人工智能在数学、科学等领域的应用。
参考文献:
- ToRL: Scaling Tool-Integrated RL. https://arxiv.org/pdf/2503.23383
相关链接:
- 代码地址: https://github.com/GAIR-NLP/ToRL
- 数据集地址: https://github.com/GAIR-NLP/ToRL/tree/main/data/torl_data
- 模型地址: https://huggingface.co/GAIR/ToRL-7B
Views: 0