“`markdown
UCLA与Meta联手开源d1框架:扩散LLM推理迎来强化学习新纪元
旧金山 – 2025年4月20日 – 大语言模型(LLM)的推理能力,长期以来被认为是自回归(AR)模型的专属领域。然而,加州大学洛杉矶分校(UCLA)与Meta AI的最新研究成果,正在打破这一固有认知。他们联合开发的开源框架d1,成功将强化学习(RL)应用于扩散LLM(dLLM),使其在理解数学、逻辑推理等方面展现出卓越的潜力。
这一突破性的进展,源于研究人员对现有RL方法在LLM推理任务中取得的显著改进的观察。诸如DeepSeek-R1、Kimi K1.5等模型,已经证明了将RL直接应用于基础模型,可以达到媲美OpenAI o1的性能。然而,以往基于RL的后训练主要集中于自回归LLM,因为它们通过从左到右的序列推理来运行。
与自回归模型不同,dLLM通过迭代去噪过程生成文本,在多步骤操作中优化序列,并通过双向注意力利用过去和未来的上下文。尽管像LLaDA这样的开源掩码dLLM已经实现了与同尺寸自回归模型相媲美的性能,而Mercury等闭源dLLM甚至展现出更低的推理延迟,但顶级的开源dLLM尚未充分利用RL后训练的潜力。
这一现状引发了一个关键问题:如何在非自回归上下文中高效地实现RL后训练?研究人员发现,将RL算法应用于掩码dLLM面临着独特的挑战。传统的RL方法,如PPO、GRPO,通过计算生成序列的对数概率来估计和优化策略分布,但这种方法无法直接应用于dLLM。
为了克服这些挑战,UCLA和Meta AI的研究人员提出了一个两阶段后训练框架d1。在第一阶段,模型在高质量推理轨迹中进行监督微调(SFT)。在第二阶段,研究人员引入了一种名为diffu-GRPO的新颖策略梯度方法,专门为掩码dLLM设计。该方法利用高效的一步(one-step)对数概率估计,在GRPO的基础上进行策略优化。
研究人员指出,他们提出的估计器利用随机提示词掩码,作为策略优化的一种正则化手段,从而可以扩展per batch的梯度更新数量,并减少RL训练所需的在线生成数量,显著降低计算时间。
该研究的论文标题为:d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning。
- 论文地址:https://arxiv.org/pdf/2504.12216
- 项目主页:https://dllm-reasoning.github.io/
- GitHub 地址:https://github.com/dllm-reasoning/d1
在实验中,研究人员使用LLaDA-8B-Instruct作为基础模型来实例化d1。他们将d1-LLaDA的性能与基础LLaDA模型,以及仅使用SFT和仅使用diffu-GRPO训练的LLaDA模型进行了比较。结果表明,d1在四个数学和逻辑推理基准测试中始终优于基础模型。此外,d1-LLaDA也优于仅使用SFT方法和仅使用diffu-GRPO方法训练的模型。
d1框架的核心在于其两阶段训练方法:
- 监督微调(SFT): 模型首先在高质量的推理轨迹上进行训练,使其初步掌握推理能力。
- 强化学习(RL): 引入diffu-GRPO算法,通过奖励模型来优化模型的推理策略。diffu-GRPO的关键在于其高效的对数概率估计器,能够快速计算dLLM生成内容的逐token对数概率和序列对数概率。
研究人员通过实验验证了d1框架的有效性,并得出以下主要结论:
- diffu-GRPO在所有12种设置中都一致优于基础的LLaDA和SFT。
- diffu-GRPO和SFT都相较于LLaDA-8B-Instruct基线有所提升,但diffu-GRPO显得更为出色。
d1框架的开源,无疑将加速扩散LLM在推理领域的应用。它不仅为研究人员提供了一个强大的工具,也为开发者提供了一个新的方向,有望推动LLM技术的进一步发展。未来,我们或许能看到更多基于扩散模型的智能应用,在数学、逻辑推理等领域发挥重要作用。
参考文献:
- d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning, arXiv:2504.12216
- LLaDA: Language-Learned Diffusion Architecture for Text Generation, ICLR 2023
“`
Views: 1