“`markdown

UCLA与Meta联手开源d1框架：扩散LLM推理迎来强化学习新纪元

旧金山 – 2025年4月20日 – 大语言模型（LLM）的推理能力，长期以来被认为是自回归（AR）模型的专属领域。然而，加州大学洛杉矶分校（UCLA）与Meta AI的最新研究成果，正在打破这一固有认知。他们联合开发的开源框架d1，成功将强化学习（RL）应用于扩散LLM（dLLM），使其在理解数学、逻辑推理等方面展现出卓越的潜力。

这一突破性的进展，源于研究人员对现有RL方法在LLM推理任务中取得的显著改进的观察。诸如DeepSeek-R1、Kimi K1.5等模型，已经证明了将RL直接应用于基础模型，可以达到媲美OpenAI o1的性能。然而，以往基于RL的后训练主要集中于自回归LLM，因为它们通过从左到右的序列推理来运行。

与自回归模型不同，dLLM通过迭代去噪过程生成文本，在多步骤操作中优化序列，并通过双向注意力利用过去和未来的上下文。尽管像LLaDA这样的开源掩码dLLM已经实现了与同尺寸自回归模型相媲美的性能，而Mercury等闭源dLLM甚至展现出更低的推理延迟，但顶级的开源dLLM尚未充分利用RL后训练的潜力。

这一现状引发了一个关键问题：如何在非自回归上下文中高效地实现RL后训练？研究人员发现，将RL算法应用于掩码dLLM面临着独特的挑战。传统的RL方法，如PPO、GRPO，通过计算生成序列的对数概率来估计和优化策略分布，但这种方法无法直接应用于dLLM。

为了克服这些挑战，UCLA和Meta AI的研究人员提出了一个两阶段后训练框架d1。在第一阶段，模型在高质量推理轨迹中进行监督微调（SFT）。在第二阶段，研究人员引入了一种名为diffu-GRPO的新颖策略梯度方法，专门为掩码dLLM设计。该方法利用高效的一步（one-step）对数概率估计，在GRPO的基础上进行策略优化。

研究人员指出，他们提出的估计器利用随机提示词掩码，作为策略优化的一种正则化手段，从而可以扩展per batch的梯度更新数量，并减少RL训练所需的在线生成数量，显著降低计算时间。

该研究的论文标题为：d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning。

论文地址：https://arxiv.org/pdf/2504.12216
项目主页：https://dllm-reasoning.github.io/
GitHub 地址：https://github.com/dllm-reasoning/d1

在实验中，研究人员使用LLaDA-8B-Instruct作为基础模型来实例化d1。他们将d1-LLaDA的性能与基础LLaDA模型，以及仅使用SFT和仅使用diffu-GRPO训练的LLaDA模型进行了比较。结果表明，d1在四个数学和逻辑推理基准测试中始终优于基础模型。此外，d1-LLaDA也优于仅使用SFT方法和仅使用diffu-GRPO方法训练的模型。

d1框架的核心在于其两阶段训练方法：

监督微调（SFT）： 模型首先在高质量的推理轨迹上进行训练，使其初步掌握推理能力。
强化学习（RL）： 引入diffu-GRPO算法，通过奖励模型来优化模型的推理策略。diffu-GRPO的关键在于其高效的对数概率估计器，能够快速计算dLLM生成内容的逐token对数概率和序列对数概率。

研究人员通过实验验证了d1框架的有效性，并得出以下主要结论：

diffu-GRPO在所有12种设置中都一致优于基础的LLaDA和SFT。
diffu-GRPO和SFT都相较于LLaDA-8B-Instruct基线有所提升，但diffu-GRPO显得更为出色。

d1框架的开源，无疑将加速扩散LLM在推理领域的应用。它不仅为研究人员提供了一个强大的工具，也为开发者提供了一个新的方向，有望推动LLM技术的进一步发展。未来，我们或许能看到更多基于扩散模型的智能应用，在数学、逻辑推理等领域发挥重要作用。

参考文献：

d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning, arXiv:2504.12216
LLaDA: Language-Learned Diffusion Architecture for Text Generation, ICLR 2023

“`

>>> Read more <<<