360智脑开源Light-R1：长程推理新突破

北京 – 在人工智能领域，模型训练的成本一直是制约技术发展的重要因素。近日，360智脑宣布开源其最新研发的Light-R1模型，一款专注于数学领域长思维链推理的AI模型，以其低成本、高性能的特点，引发了业界的广泛关注。这款模型的开源，不仅为资源有限的开发者和企业提供了新的选择，也为开源社区注入了新的活力。

Light-R1：小成本，大智慧

Light-R1的核心在于其高效的数学问题解决能力。它能够快速、准确地处理复杂的数学问题，涵盖代数、几何、概率等多个领域。更重要的是，Light-R1具备强大的逻辑推理能力，能够处理涉及长思维链的问题，这在传统的AI模型中是一个挑战。

据360智脑介绍，Light-R1基于Qwen2.5-32B-Instruct模型，通过7万条数学数据和两阶段课程学习（SFT+DPO）训练而成。令人惊讶的是，Light-R1在AIME24测试中取得了76.6分，超越了DeepSeek-R1-Distill的72.6分。而实现这一性能的成本却极低，仅需12台H800机器运行6小时，总成本约为1000美元。

技术解析：从零到超越的秘密

Light-R1的成功并非偶然，其背后蕴含着精巧的技术设计：

课程学习： Light-R1采用了两阶段有监督微调（SFT）策略，首先使用7万条数据进行训练，然后筛选出难度最高的3千条数据进行进一步微调，从而提升模型的学习效率和性能。
直接偏好优化（DPO）： 在SFT的基础上，Light-R1通过多次采样和偏好对的构建，优化模型的输出质量，使其更符合人类的期望。
数据处理与去重： 为了保证模型的泛化能力和避免测试数据泄露，Light-R1对训练数据进行了严格的去重处理，确保数据的纯净性和可靠性。
模型融合： 最终的Light-R1-32B是融合了SFT阶段2、DPO和另一个DPO版本的模型，从而进一步提升了模型的性能和稳定性。
训练框架与优化： Light-R1使用了360-LLaMA-Factory训练框架，支持序列并行和高效的分布式训练，使其能够在有限的资源下快速完成训练。

开源：推动社区发展，赋能行业应用

360智脑选择将Light-R1全量开源，包括模型、数据集、训练框架和评测代码，这一举措无疑将极大地推动开源社区的发展。通过开源，Light-R1不仅可以为低成本训练领域专精模型提供参考，还可以促进开发者之间的交流与合作，共同推动AI技术的进步。

Light-R1的应用场景广泛，涵盖了教育、科研、企业等多个领域：