PPO vs GRPO:两种主流 LLM 强化学习范式的对比与选择
引言 在大模型后训练(Post-training)阶段,强化学习(RLHF / RLAIF)已经成为决定模型能力上限的关键因素之一。近期,GLM-5.2 在训练算法上从 GLM-5.1 使用的 GRPO(Generalized Reward Policy Optimization)切换到更经典的 PPO(Proximal Policy Optimization),并带来了明显的效果提升。 这一变化并非简单的“算法替换”,而是一次在稳定性、泛化能力以及训练可控性上的系统性升级。 本文将从三个层面展开分析: PPO 与 GRPO 的核心原理 两种算法的关键差异 为什么 PPO 能带来“质的提升” PPO(Proximal Policy Optimization)原理 1. 背景 PPO 是 OpenAI 在 2017 年提出的一种策略梯度方法,是 TRPO(Trust Region Policy Optimization)的工程化简化版本,目前已经成为 RLHF 训练中的事实标准。 2. 核心思想 PPO 的核心目标是: 在优化策略的同时,限制新旧策略之间的偏移,防止训练不稳定。 其优化目标函数为: [ L^{PPO}(\theta) = \mathbb{E}\left[\min\left(r_t(\theta) A_t,\ \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t\right)\right] ] 其中: ( r_t(\theta) = \frac{\pi_\theta(a|s)}{\pi_{\theta_{old}}(a|s)} ) ( A_t ):优势函数(Advantage) ( \epsilon ):裁剪系数(通常 0.1~0.2) 3....