蚂蚁开源Ring-lite：轻量级推理新选择

引言

在人工智能（AI）技术飞速发展的今天，模型推理能力的提升一直是业界关注的焦点。然而，如何在保证高性能的同时，降低计算资源的消耗，成为摆在众多研究人员面前的一道难题。近日，蚂蚁技术AntTech团队推出的Ring-lite模型，凭借其轻量级设计和高效推理能力，为这一问题提供了全新的解决方案。这款基于MoE架构的轻量级推理模型，不仅在多项推理Benchmark上达到了SOTA效果，还开源了技术栈，推动了整个行业的发展。

Ring-lite是什么？

Ring-lite是蚂蚁技术AntTech团队推出的一款基于MoE（Mixture-of-Experts）架构的轻量级推理模型。它以Ling-lite-1.5为基础，采用独创的C3PO（Constrained Contextual Computation Policy Optimization）强化学习训练方法，在多项复杂的推理任务中表现出色。Ring-lite的总参数量为16.8B，但激活参数仅为2.75B，这使得它在保持高性能的同时，大大降低了计算资源的需求。

主要功能

高效推理

Ring-lite能够在多项复杂的推理任务中实现高效推理，包括数学推理、编程竞赛和科学推理等。其高效的推理能力不仅体现在速度上，更体现在准确性和稳定性上。

轻量级设计

Ring-lite的总参数量为16.8B，激活参数仅为2.75B。这一设计使得Ring-lite在保持高性能的同时，具有较低的计算资源需求，非常适合在资源受限的环境中使用。

多领域推理

Ring-lite能够处理多个领域的推理任务，包括数学、编程和科学等。它通过联合训练和分阶段训练的方法，实现在不同领域之间的协同增益，提高模型的泛化能力。

稳定训练

Ring-lite基于C3PO强化学习训练方法，解决了传统强化学习训练中的不稳定性问题，提高了训练过程的稳定性和效率。

技术原理

MoE架构

Ring-lite基于MoE架构，通过多个专家网络的组合处理输入数据。每个专家网络负责处理特定的子任务或数据特征，这大大提高了模型的推理能力和效率。

C3PO强化学习训练方法

C3PO是一种创新的强化学习训练方法，通过固定每个训练步骤的总训练token数，消除了由于生成回复长度波动带来的优化不稳定和吞吐波动问题。C3PO基于熵损失（entropy loss）的策略选择合适的起点模型，进一步稳定了训练过程。

Long-CoT SFT与RL的结合

Ring-lite采用了Long-CoT（长推理链）监督微调（SFT）和强化学习（RL）相结合的两阶段训练方法。通过Long-CoT SFT，模型能够学习到复杂的推理模式；基于RL，模型能够在特定任务上进一步优化性能。Ring-lite通过实验确定了最佳的SFT和RL训练比重，在token效率和性能之间取得了平衡。

多领域数据联合训练

Ring-lite在训练过程中采用了数学、编程和科学等多个领域的数据。通过分阶段训练的方法，在数学任务上进行训练，然后在代码和科学任务上进行联合训练，有效解决了多领域数据联合训练中的领域冲突问题。

项目地址

Ring-lite的开源技术栈包括模型权重、训练代码和数据集等，以下是其项目地址：

GitHub仓库：https://github.com/inclusionAI/Ring
HuggingFace模型库：https://huggingface.co/inclusionAI/Ring-lite
arXiv技术论文：https://arxiv.org/pdf/2506.14731

应用场景

教育领域

Ring-lite可以辅助学生解决复杂的数学和科学问题，提供详细的解题步骤和推理过程，帮助学生更好地理解和掌握知识。

科研领域

Ring-lite

>>> Read more <<<

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

蚂蚁开源Ring-lite：轻量级推理新选择

作者智能小编

引言

Ring-lite是什么？

主要功能