引言
在人工智能(AI)技术飞速发展的今天,模型推理能力的提升一直是业界关注的焦点。然而,如何在保证高性能的同时,降低计算资源的消耗,成为摆在众多研究人员面前的一道难题。近日,蚂蚁技术AntTech团队推出的Ring-lite模型,凭借其轻量级设计和高效推理能力,为这一问题提供了全新的解决方案。这款基于MoE架构的轻量级推理模型,不仅在多项推理Benchmark上达到了SOTA效果,还开源了技术栈,推动了整个行业的发展。
Ring-lite是什么?
Ring-lite是蚂蚁技术AntTech团队推出的一款基于MoE(Mixture-of-Experts)架构的轻量级推理模型。它以Ling-lite-1.5为基础,采用独创的C3PO(Constrained Contextual Computation Policy Optimization)强化学习训练方法,在多项复杂的推理任务中表现出色。Ring-lite的总参数量为16.8B,但激活参数仅为2.75B,这使得它在保持高性能的同时,大大降低了计算资源的需求。
主要功能
高效推理
Ring-lite能够在多项复杂的推理任务中实现高效推理,包括数学推理、编程竞赛和科学推理等。其高效的推理能力不仅体现在速度上,更体现在准确性和稳定性上。
轻量级设计
Ring-lite的总参数量为16.8B,激活参数仅为2.75B。这一设计使得Ring-lite在保持高性能的同时,具有较低的计算资源需求,非常适合在资源受限的环境中使用。
多领域推理
Ring-lite能够处理多个领域的推理任务,包括数学、编程和科学等。它通过联合训练和分阶段训练的方法,实现在不同领域之间的协同增益,提高模型的泛化能力。
稳定训练
Ring-lite基于C3PO强化学习训练方法,解决了传统强化学习训练中的不稳定性问题,提高了训练过程的稳定性和效率。
技术原理
MoE架构
Ring-lite基于MoE架构,通过多个专家网络的组合处理输入数据。每个专家网络负责处理特定的子任务或数据特征,这大大提高了模型的推理能力和效率。
C3PO强化学习训练方法
C3PO是一种创新的强化学习训练方法,通过固定每个训练步骤的总训练token数,消除了由于生成回复长度波动带来的优化不稳定和吞吐波动问题。C3PO基于熵损失(entropy loss)的策略选择合适的起点模型,进一步稳定了训练过程。
Long-CoT SFT与RL的结合
Ring-lite采用了Long-CoT(长推理链)监督微调(SFT)和强化学习(RL)相结合的两阶段训练方法。通过Long-CoT SFT,模型能够学习到复杂的推理模式;基于RL,模型能够在特定任务上进一步优化性能。Ring-lite通过实验确定了最佳的SFT和RL训练比重,在token效率和性能之间取得了平衡。
多领域数据联合训练
Ring-lite在训练过程中采用了数学、编程和科学等多个领域的数据。通过分阶段训练的方法,在数学任务上进行训练,然后在代码和科学任务上进行联合训练,有效解决了多领域数据联合训练中的领域冲突问题。
项目地址
Ring-lite的开源技术栈包括模型权重、训练代码和数据集等,以下是其项目地址:
- GitHub仓库:https://github.com/inclusionAI/Ring
- HuggingFace模型库:https://huggingface.co/inclusionAI/Ring-lite
- arXiv技术论文:https://arxiv.org/pdf/2506.14731
应用场景
教育领域
Ring-lite可以辅助学生解决复杂的数学和科学问题,提供详细的解题步骤和推理过程,帮助学生更好地理解和掌握知识。
科研领域
Ring-lite
Views: 0
