北京 – 大语言模型(LLM)的快速发展,尤其是DeepSeek R1和OpenAI o1等推理模型(LRM,Large Reasoning Model)的出现,揭示了强化学习(RL,Reinforcement Learning)作为提升模型能力的新引擎的潜力。然而,大规模强化学习训练LLM的门槛一直很高,流程复杂、涉及模块众多,且高质量开源数据和可复现流程的缺乏,都阻碍了其发展。
本周,蚂蚁技术研究院和清华大学交叉信息院吴翼团队联合发布了开源强化学习训练框架 AReaL(Ant Reasoning RL),旨在解决上述难题。该框架以速度快、稳定性强著称,并公开了全部数据和可复现的训练脚本。
最新版本 AReaL-boba (v0.2) 更进一步,其7B模型在数学推理方面刷新了同尺寸模型的AIME分数记录。更令人瞩目的是,它仅使用200条数据,便成功复刻了QwQ-32B模型,并且训练成本控制在200美元以内,实现了极具性价比的推理训练效果。
AReaL-boba 的亮点:
- 训练速度最快: AReaL-boba是首个全面拥抱xAI公司SGLang推理框架的开源训练系统,通过集成SGLang及多项工程优化,显著提升了训练吞吐量。在1.5B模型尺寸上速度提升35%,在7B模型速度提升60%,32B模型速度提升73%。
- 数学推理能力领先: 基于Qwen-R1-Distill-7B模型,AReaL-boba通过大规模强化学习训练,在两天内取得了领域最佳的数学推理能力,AIME 2024达到61.9分,AIME 2025达到48.3分,超越了OpenAI o1-preview。
- 完全开源与可复现: AReaL-boba不仅开源了推理模型,还开源了所有训练数据(AReaL-boba-106k)、训练脚本和评估脚本,确保人人可复现。项目官方仓库还提供了详细的技术笔记,总结了训练中的关键点。
- 低成本复现: 在32B模型尺寸上,AReaL团队发布了数据集AReaL-boba-SFT-200和相关训练脚本。基于R1-Distill-Qwen-32B,仅使用200条数据,以轻量级SFT的方式,在AIME 2024上复刻了QwQ-32B的推理结果,成本仅为200美元。
AReaL-boba的意义:
AReaL-boba的发布降低了LLM强化学习训练的门槛,使得更多研究者和开发者能够参与到LLM的优化和改进中来。其开源和可复现的特性,将促进社区的合作和创新,推动LLM技术的进一步发展。
正如项目命名“boba”(珍珠奶茶)所寓意的,团队希望强化学习技术能像奶茶一样,渗透到AI开发的每个日常场景,普惠整个社区。
项目链接: https://github.com/inclusionAI/AReaL
HuggingFace数据模型地址: https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a
未来展望:
AReaL团队表示将持续发布与训练LRM相关的所有代码、数据集和训练流程,并欢迎社区成员积极参与到项目的开发和改进中来。
参考文献:
- AReaL GitHub Repository: https://github.com/inclusionAI/AReaL
- AReaL HuggingFace Collection: https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a
- DeepSeek R1: (需要查找相关论文或官方信息)
- OpenAI o1: (需要查找相关论文或官方信息)
- SGLang: (需要查找相关论文或官方信息)
- QwQ: (需要查找相关论文或官方信息)
注: 由于信息有限,部分参考文献需要进一步查找相关论文或官方信息补充完整。
Views: 0