新闻报道新闻报道

引言

在人工智能(AI)技术飞速发展的今天,模型推理能力的提升一直是业界关注的焦点。然而,如何在保证高性能的同时,降低计算资源的消耗,成为摆在众多研究人员面前的一道难题。近日,蚂蚁技术AntTech团队推出的Ring-lite模型,凭借其轻量级设计和高效推理能力,为这一问题提供了全新的解决方案。这款基于MoE架构的轻量级推理模型,不仅在多项推理Benchmark上达到了SOTA效果,还开源了技术栈,推动了整个行业的发展。

Ring-lite是什么?

Ring-lite是蚂蚁技术AntTech团队推出的一款基于MoE(Mixture-of-Experts)架构的轻量级推理模型。它以Ling-lite-1.5为基础,采用独创的C3PO(Constrained Contextual Computation Policy Optimization)强化学习训练方法,在多项复杂的推理任务中表现出色。Ring-lite的总参数量为16.8B,但激活参数仅为2.75B,这使得它在保持高性能的同时,大大降低了计算资源的需求。

主要功能

高效推理

Ring-lite能够在多项复杂的推理任务中实现高效推理,包括数学推理、编程竞赛和科学推理等。其高效的推理能力不仅体现在速度上,更体现在准确性和稳定性上。

轻量级设计

Ring-lite的总参数量为16.8B,激活参数仅为2.75B。这一设计使得Ring-lite在保持高性能的同时,具有较低的计算资源需求,非常适合在资源受限的环境中使用。

多领域推理

Ring-lite能够处理多个领域的推理任务,包括数学、编程和科学等。它通过联合训练和分阶段训练的方法,实现在不同领域之间的协同增益,提高模型的泛化能力。

稳定训练

Ring-lite基于C3PO强化学习训练方法,解决了传统强化学习训练中的不稳定性问题,提高了训练过程的稳定性和效率。

技术原理

MoE架构

Ring-lite基于MoE架构,通过多个专家网络的组合处理输入数据。每个专家网络负责处理特定的子任务或数据特征,这大大提高了模型的推理能力和效率。

C3PO强化学习训练方法

C3PO是一种创新的强化学习训练方法,通过固定每个训练步骤的总训练token数,消除了由于生成回复长度波动带来的优化不稳定和吞吐波动问题。C3PO基于熵损失(entropy loss)的策略选择合适的起点模型,进一步稳定了训练过程。

Long-CoT SFT与RL的结合

Ring-lite采用了Long-CoT(长推理链)监督微调(SFT)和强化学习(RL)相结合的两阶段训练方法。通过Long-CoT SFT,模型能够学习到复杂的推理模式;基于RL,模型能够在特定任务上进一步优化性能。Ring-lite通过实验确定了最佳的SFT和RL训练比重,在token效率和性能之间取得了平衡。

多领域数据联合训练

Ring-lite在训练过程中采用了数学、编程和科学等多个领域的数据。通过分阶段训练的方法,在数学任务上进行训练,然后在代码和科学任务上进行联合训练,有效解决了多领域数据联合训练中的领域冲突问题。

项目地址

Ring-lite的开源技术栈包括模型权重、训练代码和数据集等,以下是其项目地址:

应用场景

教育领域

Ring-lite可以辅助学生解决复杂的数学和科学问题,提供详细的解题步骤和推理过程,帮助学生更好地理解和掌握知识。

科研领域

Ring-lite


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注