90年代申花出租车司机夜晚在车内看文汇报90年代申花出租车司机夜晚在车内看文汇报

引言

在人工智能领域,尤其是大语言模型(LLMs)的训练过程中,技术的演进从未停止。从OpenAI的ChatGPT到DeepSeek的创新,强化学习(Reinforcement Learning, RL)算法在LLMs微调中的应用正沿着明确的轨迹不断发展。然而,DeepSeek的GRPO(Guided Reward Policy Optimization)算法被曝出会导致模型崩溃,这引发了业界的广泛关注。与此同时,Qwen3提出的新范式GSPO(Guided Strategy Policy Optimization)又带来了新的希望。本文将深入探讨这两种方法的原理、应用及其对LLMs训练的影响。

大型语言模型训练的两阶段

预训练阶段

大型语言模型的训练通常分为两个阶段。第一阶段是「预训练」,开发者利用大规模文本数据集训练模型,让它学会预测句子中的下一个词。这一过程类似于让模型在海量数据中「学习语言的基本规则」。

后训练阶段

第二阶段是「后训练」,旨在教会模型如何更好地理解和执行人类指令。在这一阶段,强化学习(RL)算法扮演了重要角色,尤其是基于人类反馈的强化学习(RLHF)。

强化学习在LLMs微调中的应用

RLHF的诞生与挑战

OpenAI的RLHF技术通过让人类标注员对模型生成的多种响应进行打分,并选出最优答案作为训练参考,成功地改进了ChatGPT。然而,这一过程耗时、昂贵且依赖人力,通常需要一支小型但专业的数据标注团队。

DeepSeek的创新:GRPO

DeepSeek团队的重要创新在于用RL技术自动化了这一环节。其GRPO算法通过让模型在探索过程中,获得「奖励信号」自主学习正确行为,从而显著降低了成本,提高了效率。然而,GRPO算法在实际应用中被发现会导致模型崩溃,这一问题引发了业界的广泛关注和讨论。

Qwen3的新范式:GSPO

GSPO的提出

在DeepSeek的GRPO面临挑战之际,Qwen3提出了新的解决方案——GSPO(Guided Strategy Policy Optimization)。GSPO旨在通过一种更为精细和系统的方式引导模型的学习过程,从而避免GRPO中的崩溃问题。

GSPO的核心原理

GSPO的核心在于策略优化中的「引导」机制。通过引入一种新的价值估计方法,GSPO可以在不依赖人工标注的情况下,更有效地指导模型进行自主学习。其主要特点包括:

  1. 价值估计的改进:GSPO在一组样本中进行更为精确的价值估计,从而提高了模型的学习效率和稳定性。
  2. 引导机制:通过引入引导信号,GSPO可以更好地控制模型的探索和利用过程,避免模型在探索过程中偏离最优解。
  3. 成本效益:相比于传统的RLHF方法,GSPO不仅降低了人力成本,还提高了模型的训练效率和性能。

深入分析:GRPO与GSPO的对比

技术细节

  1. 奖励信号 vs 引导信号:GRPO依赖于奖励信号进行自主学习,而GSPO则通过引导信号更精确地指导模型学习。
  2. 价值估计:GRPO在价值估计中存在不稳定性,容易导致模型崩溃;而GSPO通过改进的价值估计方法,提高了模型的稳定性和学习效率。
  3. 成本与效率:虽然GRPO降低了人工成本,但在实际应用中存在模型崩溃的风险;GSPO则在保持低成本的同时,提高了模型的稳定性和性能。

应用场景

  1. GRPO的适用场景:GRPO适用于需要快速迭代和低成本解决方案的场景,但在高精度和高稳定性要求的场景中表现不佳。
  2. GSPO的适用场景:GSPO适用于需要高精度和高稳定性模型的场景,如金融、医疗等领域,在这些场景中,GSPO的引导机制和改进的价值估计方法能够发挥重要作用。

案例分析

DeepSeek的GRPO应用案例

在DeepSeek的实际应用中,GRPO算法在多个项目中被采用,初期表现出了显著的成本降低和效率提升。然而,随着应用的深入,模型崩溃的问题逐渐显现,尤其是在处理复杂任务和高精度要求的场景中。

Qwen3的GSPO应用案例

Qwen3在多个项目中采用了GSP


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注