PPO vs GRPO：两种主流 LLM 强化学习范式的对比与选择

引言

在大模型后训练（Post-training）阶段，强化学习（RLHF / RLAIF）已经成为决定模型能力上限的关键因素之一。近期，GLM-5.2 在训练算法上从 GLM-5.1 使用的 GRPO（Generalized Reward Policy Optimization）切换到更经典的 PPO（Proximal Policy Optimization），并带来了明显的效果提升。

这一变化并非简单的“算法替换”，而是一次在稳定性、泛化能力以及训练可控性上的系统性升级。

PPO vs GRPO

本文将从三个层面展开分析：

PPO 与 GRPO 的核心原理
两种算法的关键差异
为什么 PPO 能带来“质的提升”

PPO（Proximal Policy Optimization）原理

1. 背景

PPO 是 OpenAI 在 2017 年提出的一种策略梯度方法，是 TRPO（Trust Region Policy Optimization）的工程化简化版本，目前已经成为 RLHF 训练中的事实标准。

2. 核心思想

PPO 的核心目标是：

在优化策略的同时，限制新旧策略之间的偏移，防止训练不稳定。

其优化目标函数为：

[ L^{PPO}(\theta) = \mathbb{E}\left[\min\left(r_t(\theta) A_t,\ \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t\right)\right] ]

其中：

( r_t(\theta) = \frac{\pi_\theta(a|s)}{\pi_{\theta_{old}}(a|s)} )
( A_t )：优势函数（Advantage）
( \epsilon )：裁剪系数（通常 0.1~0.2）

3. 关键机制

PPO 的稳定性来源于三点：

Clipping 机制

限制策略更新幅度，防止“过度优化”。

dvantage Estimation（GAE）

降低方差，提高训练稳定性。

多步更新（Epoch）

在同一批数据上进行多次优化，提高 sample efficiency。

4. 在大模型中的作用

在 LLM 训练中，PPO 通常用于：

对齐人类偏好（RLHF）
控制生成风格（安全、格式、推理能力）
平衡 exploration vs exploitation

GRPO（Generalized Reward Policy Optimization）原理

1. 背景

GRPO 是在 RLHF 场景中提出的一种**去 Value Function（无 critic）**的优化方法，其目标是：

简化 PPO 训练流程，降低工程复杂度，同时提升吞吐。

2. 核心思想

GRPO 的关键在于：

不训练 value model
不计算 advantage（或用简化替代）
直接基于 reward 进行相对优化

典型流程：

对同一 prompt 采样多个输出（N samples）
使用 reward model 打分
做归一化或排序
使用相对奖励更新策略

可表示为：

[ L^{GRPO} = \mathbb{E}\left[\log \pi_\theta(a|s) \cdot \hat{R}(a)\right] ]

其中：

( \hat{R}(a) )：归一化后的 reward（如 rank-based 或 mean-centered）

3. 关键特点

无 Critic 架构

避免 value model 训练的不稳定性。

Batch 内对比学习

依赖同一 prompt 下多个样本的“相对优劣”。

高吞吐

更适合大规模并行训练（尤其是多 GPU 推理采样）。

PPO vs GRPO：核心差异对比

维度	PPO	GRPO
是否使用 Value Model	✅ 使用	❌ 不使用
Advantage 计算	✅ GAE	❌ 无（或简化）
稳定性	⭐⭐⭐⭐⭐	⭐⭐⭐
训练复杂度	高	低
样本效率	高	中
并行友好性	中	高
对 reward 依赖	中	高
对数据质量敏感性	中	高

PPO vs GRPO

为什么 GLM-5.2 从 GRPO 切换到 PPO？

这是本文的核心问题。

1. GRPO 的瓶颈

尽管 GRPO 在工程上更简单，但存在几个关键问题：

Reward 噪声放大

GRPO 强依赖 reward 的“相对排序”，当：

reward model 不够精确
多样本之间差异较小

会导致：

梯度信号极不稳定

缺乏长期信用分配（Credit Assignment）

GRPO 没有 value function：

无法建模长期回报
对长链推理（CoT）不友好

训练容易 collapse

在某些情况下：

模型会过拟合 reward model
输出趋于模式化（mode collapse）

2. PPO 的优势在 GLM-5.2 中体现

更稳定的优化路径

PPO 的 clipping + advantage：

避免策略震荡
保证逐步改进（monotonic improvement）

更好的推理能力（Reasoning）

PPO 的 value function：

能对“中间步骤”进行隐式建模
更适合 chain-of-thought / multi-step reasoning

对 reward model 依赖降低

相比 GRPO：

PPO 不完全依赖 reward 排序
对 reward 噪声更鲁棒

更强的泛化能力

PPO 本质上优化的是：

策略分布，而不是样本排序

因此在：

未见任务
长文本生成
工具调用

等场景中更稳定。

一个直观理解：排序 vs 回归

可以用一个类比帮助理解：

GRPO：像做“排序学习”
- 哪个答案更好？
- 强依赖 pairwise / listwise 对比
PPO：像做“回归优化”
- 当前策略离最优策略有多远？
- 有连续的优化方向

结论：

GRPO 更“快”，PPO 更“稳且准”。

总结

GLM-5.2 从 GRPO 切换到 PPO，本质上是一次：

从工程效率优先 → 模型能力优先的转变

关键结论

GRPO 适合：
- 快速训练
- 大规模并行
- reward 明确的任务
PPO 更适合：
- 高质量对齐
- 复杂推理任务
- 长上下文生成
在当前 LLM 发展阶段：

稳定性、泛化能力、推理能力 > 训练吞吐

因此，PPO 的回归成为一个“必然选择”。

结语

强化学习算法的选择，正在成为大模型能力差异的关键分水岭。从 GRPO 到 PPO，不只是算法切换，更代表着：

大模型训练从“能跑”走向“跑得好、跑得稳”。

未来我们很可能看到：

PPO + DPO 混合范式
或新的 off-policy RL 方法
甚至 reward-free alignment

但在当前阶段：

PPO 仍然是最稳健的工业级选择。

引言#

PPO（Proximal Policy Optimization）原理#

1. 背景#

2. 核心思想#

3. 关键机制#

Clipping 机制#

dvantage Estimation（GAE）#

多步更新（Epoch）#

4. 在大模型中的作用#

GRPO（Generalized Reward Policy Optimization）原理#

1. 背景#

2. 核心思想#

3. 关键特点#

无 Critic 架构#

Batch 内对比学习#

高吞吐#

PPO vs GRPO：核心差异对比#

为什么 GLM-5.2 从 GRPO 切换到 PPO？#

1. GRPO 的瓶颈#

Reward 噪声放大#

缺乏长期信用分配（Credit Assignment）#

训练容易 collapse#

2. PPO 的优势在 GLM-5.2 中体现#

更稳定的优化路径#

更好的推理能力（Reasoning）#

对 reward model 依赖降低#

更强的泛化能力#

一个直观理解：排序 vs 回归#

总结#

关键结论#

结语#

引言

PPO（Proximal Policy Optimization）原理

1. 背景

2. 核心思想

3. 关键机制

Clipping 机制

dvantage Estimation（GAE）

多步更新（Epoch）

4. 在大模型中的作用

GRPO（Generalized Reward Policy Optimization）原理

1. 背景

2. 核心思想

3. 关键特点

无 Critic 架构

Batch 内对比学习

高吞吐

PPO vs GRPO：核心差异对比

为什么 GLM-5.2 从 GRPO 切换到 PPO？

1. GRPO 的瓶颈

Reward 噪声放大

缺乏长期信用分配（Credit Assignment）

训练容易 collapse

2. PPO 的优势在 GLM-5.2 中体现

更稳定的优化路径

更好的推理能力（Reasoning）

对 reward model 依赖降低

更强的泛化能力

一个直观理解：排序 vs 回归

总结

关键结论

结语