<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Glm on Wilson Wu</title><link>https://wilsonwu.me/tags/glm/</link><description>Recent content in Glm on Wilson Wu</description><generator>Hugo -- 0.127.0</generator><language>zh-CN</language><lastBuildDate>Sun, 28 Jun 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://wilsonwu.me/tags/glm/index.xml" rel="self" type="application/rss+xml"/><item><title>PPO vs GRPO：两种主流 LLM 强化学习范式的对比与选择</title><link>https://wilsonwu.me/blog/2026/ppo-vs-grpo/</link><pubDate>Sun, 28 Jun 2026 00:00:00 +0000</pubDate><guid>https://wilsonwu.me/blog/2026/ppo-vs-grpo/</guid><description>引言 在大模型后训练（Post-training）阶段，强化学习（RLHF / RLAIF）已经成为决定模型能力上限的关键因素之一。近期，GLM-5.2 在训练算法上从 GLM-5.1 使用的 GRPO（Generalized Reward Policy Optimization）切换到更经典的 PPO（Proximal Policy Optimization），并带来了明显的效果提升。
这一变化并非简单的“算法替换”，而是一次在稳定性、泛化能力以及训练可控性上的系统性升级。
本文将从三个层面展开分析：
PPO 与 GRPO 的核心原理 两种算法的关键差异 为什么 PPO 能带来“质的提升” PPO（Proximal Policy Optimization）原理 1. 背景 PPO 是 OpenAI 在 2017 年提出的一种策略梯度方法，是 TRPO（Trust Region Policy Optimization）的工程化简化版本，目前已经成为 RLHF 训练中的事实标准。
2. 核心思想 PPO 的核心目标是：
在优化策略的同时，限制新旧策略之间的偏移，防止训练不稳定。
其优化目标函数为：
[ L^{PPO}(\theta) = \mathbb{E}\left[\min\left(r_t(\theta) A_t,\ \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t\right)\right] ]
其中：
( r_t(\theta) = \frac{\pi_\theta(a|s)}{\pi_{\theta_{old}}(a|s)} ) ( A_t )：优势函数（Advantage） ( \epsilon )：裁剪系数（通常 0.1~0.2） 3.</description></item></channel></rss>