GDPO——分组奖励解耦归一化策略优化算法

引言： GDPO（Group reward-Decoupled Normalization Policy Optimization）是一种针对多奖励强化学习优化的新方法。它解决了 GRPO（Group Relative Policy Optimization）在处理多奖励时存在的奖励信号压缩问题，通过对每个奖励进行独立的分组归一化，保留了不同奖励组合之间的细微差异，从而实现更准确的多奖励优化和显著提升的训练稳定性。

✈️ GDPO 算法介绍

研究背景

随着语言模型能力的不断增强，用户期望模型在提供准确响应的同时，还能在各种场景下符合多样化的人类偏好。为了实现这一点，强化学习（RL） pipeline 开始集成多个奖励，每个奖励捕获不同的偏好，以引导模型实现这些期望的行为。

目前，GRPO 是广泛使用的强化学习算法，但它主要用于优化单一目标奖励（通常是准确性）。当直接将 GRPO 应用于多奖励设置时，会将所有奖励相加后进行统一的分组归一化，这种方法存在严重的局限性。

GRPO 的问题：奖励信号压缩

直接将 GRPO 应用于多奖励设置存在一个被忽视的问题：它会导致奖励信号的严重压缩，造成优势估计中的信息损失。

GRPO 的优势计算方式：

对于一个包含 G 个响应的组和 n 个奖励的任务，GRPO 首先计算每个响应的总奖励： r_sum^(i, j) = r₁^(i, j) + ⋯ + r_n^(i, j)

然后对总奖励进行分组归一化： $$A^{(i,j)}_{\text{sum}} = \frac{r_{\text{sum}}^{(i,j)} - \mathrm{mean}\{ r_{\text{sum}}^{(i,1)}, \ldots, r_{\text{sum}}^{(i,G)}\}}{\mathrm{std}\{ r_{\text{sum}}^{(i,1)}, \ldots, r_{\text{sum}}^{(i,G)} \}}$$

问题示例：

考虑一个包含 2 个二值奖励和 2 个响应的简单场景： - 总奖励组合可能有：(0,1)、(0,2)、(1,2) 等 - GRPO 会将这些不同的奖励组合映射到完全相同的优势值 (−0.7071, 0.7071) - 这意味着 (0,2) 和 (0,1) 会被视为具有相同的学习信号，尽管前者表示两个奖励都得到满足，而后者只满足一个

核心洞察

GDPO 的核心洞察是：每个奖励应该进行独立的分组归一化，然后再进行聚合。这样可以保留不同奖励组合之间的细微差异，提供更准确的优势估计。

🚀 GDPO 算法流程

分组奖励解耦归一化

GDPO 的主要创新是将奖励归一化过程解耦，对每个奖励进行独立的分组归一化，然后再求和并进行批处理归一化。

GDPO 的优势计算步骤：

每个奖励独立归一化： 对每个奖励 r_k 进行分组归一化： $$A^{(i,j)}_k = \frac{r_k^{(i,j)} - \mathrm{mean}\{ r_k^{(i,1)}, \ldots, r_k^{(i,G)}\}}{\mathrm{std}\{ r_k^{(i,1)}, \ldots, r_k^{(i,G)}\}}$$
归一化优势求和： 将所有奖励的归一化优势相加： A_sum^(i, j) = A₁^(i, j) + ⋯ + A_n^(i, j)
批处理归一化： 对总和进行批处理级别的归一化，确保数值范围的稳定性： $$\hat{A}^{(i,j)}_{\text{sum}} = \frac{A^{(i,j)}_{\text{sum}} - \mathrm{mean}\{A^{(i',j')}_{\text{sum}}\}}{\mathrm{std}\{A^{(i',j')}_{\text{sum}}\} + \epsilon}$$