DeepSeek模型GRPO爆崩溃风险，Qwen3新范式GSPO引关注

引言

在人工智能领域，尤其是大语言模型（LLMs）的训练过程中，技术的演进从未停止。从OpenAI的ChatGPT到DeepSeek的创新，强化学习（Reinforcement Learning, RL）算法在LLMs微调中的应用正沿着明确的轨迹不断发展。然而，DeepSeek的GRPO（Guided Reward Policy Optimization）算法被曝出会导致模型崩溃，这引发了业界的广泛关注。与此同时，Qwen3提出的新范式GSPO（Guided Strategy Policy Optimization）又带来了新的希望。本文将深入探讨这两种方法的原理、应用及其对LLMs训练的影响。

大型语言模型训练的两阶段

预训练阶段

大型语言模型的训练通常分为两个阶段。第一阶段是「预训练」，开发者利用大规模文本数据集训练模型，让它学会预测句子中的下一个词。这一过程类似于让模型在海量数据中「学习语言的基本规则」。

后训练阶段

第二阶段是「后训练」，旨在教会模型如何更好地理解和执行人类指令。在这一阶段，强化学习（RL）算法扮演了重要角色，尤其是基于人类反馈的强化学习（RLHF）。

强化学习在LLMs微调中的应用

RLHF的诞生与挑战

OpenAI的RLHF技术通过让人类标注员对模型生成的多种响应进行打分，并选出最优答案作为训练参考，成功地改进了ChatGPT。然而，这一过程耗时、昂贵且依赖人力，通常需要一支小型但专业的数据标注团队。

DeepSeek的创新：GRPO

DeepSeek团队的重要创新在于用RL技术自动化了这一环节。其GRPO算法通过让模型在探索过程中，获得「奖励信号」自主学习正确行为，从而显著降低了成本，提高了效率。然而，GRPO算法在实际应用中被发现会导致模型崩溃，这一问题引发了业界的广泛关注和讨论。

Qwen3的新范式：GSPO

GSPO的提出

在DeepSeek的GRPO面临挑战之际，Qwen3提出了新的解决方案——GSPO（Guided Strategy Policy Optimization）。GSPO旨在通过一种更为精细和系统的方式引导模型的学习过程，从而避免GRPO中的崩溃问题。

GSPO的核心原理

GSPO的核心在于策略优化中的「引导」机制。通过引入一种新的价值估计方法，GSPO可以在不依赖人工标注的情况下，更有效地指导模型进行自主学习。其主要特点包括：

价值估计的改进：GSPO在一组样本中进行更为精确的价值估计，从而提高了模型的学习效率和稳定性。
引导机制：通过引入引导信号，GSPO可以更好地控制模型的探索和利用过程，避免模型在探索过程中偏离最优解。
成本效益：相比于传统的RLHF方法，GSPO不仅降低了人力成本，还提高了模型的训练效率和性能。

深入分析：GRPO与GSPO的对比

技术细节

奖励信号 vs 引导信号：GRPO依赖于奖励信号进行自主学习，而GSPO则通过引导信号更精确地指导模型学习。
价值估计：GRPO在价值估计中存在不稳定性，容易导致模型崩溃；而GSPO通过改进的价值估计方法，提高了模型的稳定性和学习效率。
成本与效率：虽然GRPO降低了人工成本，但在实际应用中存在模型崩溃的风险；GSPO则在保持低成本的同时，提高了模型的稳定性和性能。

应用场景

GRPO的适用场景：GRPO适用于需要快速迭代和低成本解决方案的场景，但在高精度和高稳定性要求的场景中表现不佳。
GSPO的适用场景：GSPO适用于需要高精度和高稳定性模型的场景，如金融、医疗等领域，在这些场景中，GSPO的引导机制和改进的价值估计方法能够发挥重要作用。

案例分析

DeepSeek的GRPO应用案例

在DeepSeek的实际应用中，GRPO算法在多个项目中被采用，初期表现出了显著的成本降低和效率提升。然而，随着应用的深入，模型崩溃的问题逐渐显现，尤其是在处理复杂任务和高精度要求的场景中。

Qwen3的GSPO应用案例

Qwen3在多个项目中采用了GSP

>>> Read more <<<

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

DeepSeek模型GRPO爆崩溃风险，Qwen3新范式GSPO引关注

作者智能小编

引言