DAPO——动态采样策略优化算法

引言: 该研究提出 DAPO(Dynamic Sampling Policy Optimization)算法,通过四项关键技术解决长思维链 RL 训练中的「熵崩溃」「梯度失效」「奖励噪声」等痛点。基于 Qwen2.5-32B 模型,DAPO 在 AIME 2024 数学竞赛中达成 50% 准确率,仅用 50% 训练步数即超越 DeepSeek-R1-Zero 的 47% 准确率。

✈️ DAPO 算法介绍

作者使用原生 GRPO 算法对 Qwen2.5-32B 进行实验,在 AIME 上仅获得 30 分,远低于 DeepSeek R1 模型的 47 分。深入分析表明,原生 GRPO 基线存在几个关键问题:熵崩溃导致策略多样性急剧下降,奖励噪声干扰训练信号,以及训练不稳定难以收敛。更广泛的社区在复现 DeepSeek 结果时也遇到了类似挑战,这表明 R1 论文中可能遗漏了开发工业级、大规模、可复现 RL 系统所需的关键训练细节。

为此,作者提出了解耦裁剪与动态采样策略优化(DAPO)算法,引入四项关键技术:Clip-Higher(更高截断)避免熵崩溃,Dynamic Sampling(动态采样)提升训练效率,Token-Level Loss(令牌级损失)适配长思维链场景,以及 Overlong Reward Shaping(过长奖励塑造)减少奖励噪声。

🚀 DAPO 算法流程

DAPO 为每个问题 q(配对答案 a)采样一组输出 {oi}i = 1G,并通过以下目标函数优化策略:

其中重要性采样比率 ri, t(θ) 和优势函数 i, t 采用标准定义。该公式的核心改进体现在以下四个方面。

更高截断(Clip-Higher)

在使用 PPO 或 GRPO 进行训练时,作者观察到熵崩溃现象:随着训练进行,策略的熵迅速下降,同一组内的采样响应趋于完全相同,表明探索受限且策略过早收敛。

PPO-Clip 通过对重要性采样比率进行裁剪来保证训练稳定性,但上裁剪会限制低概率 token 的增长空间——高概率的「利用」token 容易被进一步强化,而低概率的「探索」token 则受到严格限制难以提升。作者通过增大上裁剪阈值 εhigh,为低概率 token 留出更多增长空间,有效提高了策略的熵并生成更多样化的样本。同时保持下裁剪 εlow 不变,避免将某些 token 的概率压至 0 导致采样空间崩溃。

智能体模型的熵变化

动态采样(Dynamic Sampling)

当某些提示的准确率达到 100% 时,会遇到梯度失效问题。以 GRPO 为例,如果某提示的所有输出都正确且获得相同奖励,则该组的优势值为零,导致策略梯度为零。随着训练进行,这类样本持续增加,每个批次中有效提示数量不断减少,可能导致梯度方差增大并削弱训练信号。

作者提出动态采样策略:过滤掉准确率为 100% 或 0% 的提示,仅保留具有有效梯度的样本,持续采样直到批次填满。由于生成时间主要由长尾样本决定,整体训练时间并未显著增加,而模型收敛速度反而加快。

动态采样应用前后的准确率对比

令牌级策略梯度损失(Token-Level Loss)

原始 GRPO 采用样本级损失计算:先对每个样本内的 token 损失取平均,再汇总所有样本,每个样本被赋予相等权重。在长思维链场景下,这导致高质量长样本中每个 token 对损失的贡献被严重稀释,模型难以学习其中的推理模式;同时低质量长样本(如重复生成)也无法被有效惩罚,导致熵和响应长度不健康增长。

改用令牌级损失后,较长样本对梯度的影响更大,特定生成模式无论出现在多长的响应中都会受到同等程度的强化或抑制。

智能体模型概率分布的熵及响应长度变化

过长奖励塑造(Overlong Reward Shaping)

RL 训练通常设置最大生成长度,超长样本会被截断。默认给截断样本分配惩罚性奖励会引入噪声:合理的推理过程可能仅因长度过长而受惩罚,使模型对推理有效性产生困惑。

作者提出软超长惩罚,采用长度感知惩罚函数:

在缓冲区间内响应越长惩罚越大,超过最大长度才给予满惩罚,引导模型避免产生过长响应。

应用过长奖励塑造策略前后的效果对比

🎯 训练细节与实验结果

作者采用 verl 框架在数学任务上进行实验,使用朴素 GRPO 作为基准。超参数设置包括:AdamW 优化器,学习率 1 × 10−6(线性预热 20 步),提示批大小 512,每提示采样 16 个响应,裁剪参数 εlow = 0.2εhigh = 0.28,生成最大长度 20480 tokens(含 4096 tokens 软惩罚缓冲区)。

在 AIME 2024 实验中,DAPO 将 Qwen-32B Base 从接近 0% 的准确率训练至 50%,超过 DeepSeek-R1-Zero 在同一基座模型上的 47%,且仅需其 50% 的训练步数。作为对比,标准 GRPO 设置下只能达到 30% 准确率。四项技术均有贡献:Clip-Higher 解决熵崩溃,动态采样加快收敛,令牌级损失使长度增长更健康,过长奖励塑造稳定训练。

DAPO 各项技术的累进效果

💡 洞察与结论

响应长度与训练稳定性和性能密切相关。长度增加为模型提供更大探索空间,使复杂推理行为能被采样并强化,但训练中长度并非持续上升,可能呈现停滞甚至下降趋势,需结合验证准确率综合评估。

奖励动态在大多数实验中相对稳定,表明语言模型能稳健拟合训练集分布,但训练集最终奖励与验证集准确率相关性较低,存在一定程度过拟合。

熵的变化是关键监控指标。熵过低表明探索不足,过高则导致生成无意义内容。通过 Clip-Higher 策略有效解决熵崩溃问题,保持熵缓慢上升有助于性能提升。

最值得关注的是推理模式的涌现。训练早期,模型几乎不会回溯检查先前推理步骤;随着训练进行,模型逐渐表现出明显的反思和回溯行为。这种推理模式并非预先存在,而是通过 RL 训练逐步涌现,为理解模型学习机制提供了新的视角。


DAPO——动态采样策略优化算法
https://choucisan.xyz/DAPO.html
Author
choucisan
Posted on
December 27, 2025
Licensed under