Ppo | Wilson Wu

引言在大模型后训练（Post-training）阶段，强化学习（RLHF / RLAIF）已经成为决定模型能力上限的关键因素之一。近期，GLM-5.2 在训练算法上从 GLM-5.1 使用的 GRPO（Generalized Reward Policy Optimization）切换到更经典的 PPO（Proximal Policy Optimization），并带来了明显的效果提升。这一变化并非简单的“算法替换”，而是一次在稳定性、泛化能力以及训练可控性上的系统性升级。本文将从三个层面展开分析： PPO 与 GRPO 的核心原理两种算法的关键差异为什么 PPO 能带来“质的提升” PPO（Proximal Policy Optimization）原理 1. 背景 PPO 是 OpenAI 在 2017 年提出的一种策略梯度方法，是 TRPO（Trust Region Policy Optimization）的工程化简化版本，目前已经成为 RLHF 训练中的事实标准。 2. 核心思想 PPO 的核心目标是：在优化策略的同时，限制新旧策略之间的偏移，防止训练不稳定。其优化目标函数为： [ L^{PPO}(\theta) = \mathbb{E}\left[\min\left(r_t(\theta) A_t,\ \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t\right)\right] ] 其中： ( r_t(\theta) = \frac{\pi_\theta(a|s)}{\pi_{\theta_{old}}(a|s)} ) ( A_t )：优势函数（Advantage） ( \epsilon )：裁剪系数（通常 0.1~0.2） 3....