SAPO——软自适应策略优化算法

引言： 该研究提出 SAPO（Soft Adaptive Policy Optimization）算法，通过引入温度控制的软门控函数替代传统的硬裁剪机制，解决了 GRPO 和 GSPO 中存在的「梯度不连续」「正负样本不对称处理」等问题。SAPO 结合了 GSPO 的序列级一致性优势和 GRPO 的 token 级自适应能力，在 Qwen3 和 Qwen3-VL 的训练中取得了更优的性能和稳定性。

✈️ SAPO 算法介绍

GRPO 和 GSPO 都采用硬裁剪（Hard Clipping）机制来约束策略更新幅度，但这种设计存在根本性问题。硬裁剪在边界处产生梯度不连续，导致训练信号突变；同时，对正样本（优势为正）和负样本（优势为负）采用相同的裁剪阈值，忽略了两者在优化动态上的本质差异。

从优化稳定性角度分析，负样本比正样本更需要谨慎处理。当模型试图降低某个 token 的概率时，如果降低幅度过大，可能导致该 token 的 likelihood 接近零，引发数值不稳定甚至模型崩溃。相比之下，提升正样本概率的风险较小，因为概率上限为 1，不会出现发散问题。然而，传统的对称裁剪无法体现这种差异。

为此，作者提出 SAPO（Soft Adaptive Policy Optimization）算法，核心创新是用温度控制的软门控函数替代硬裁剪。软门控提供平滑的梯度过渡，消除边界处的不连续性；通过非对称温度设计，对正负样本施加不同强度的约束，在保持探索能力的同时确保训练稳定性。SAPO 在理论上融合了 GSPO 的序列级思想和 GRPO 的 token 级自适应性，在实践中已成功应用于 Qwen3 系列模型的训练。

🚀 SAPO 算法流程

SAPO 的目标函数与 GRPO 形式相似，关键区别在于将硬裁剪替换为软门控：

其中 r_i, t(θ) 是 token 级重要性采样比率，Â_i 是组级优势估计，f_i, t(⋅) 是软门控函数。与硬裁剪的本质区别在于：f_i, t 是连续可微的，且其形状由温度参数自适应控制。

软门控函数设计

SAPO 的软门控函数定义为：

其中 σ(⋅) 是 sigmoid 函数，τ_i, t 是温度参数。这个设计有三个关键特性。

首先，以 1 为中心：当 x = 1（即新旧策略相同）时，，梯度处于中性状态。其次，平滑过渡：随着 x 偏离 1，函数值平滑变化而非突变，消除了硬裁剪的梯度不连续问题。最后，温度控制：τ_i, t 越大，函数曲线越平缓，对策略变化的容忍度越高；τ_i, t 越小，曲线越陡峭，约束越严格。

对软门控函数求导，可得梯度权重：

w_i, t(θ) = 4p_i, t(θ)(1 − p_i, t(θ))

其中 p_i, t(θ) = σ(τ_i, t(r_i, t(θ) − 1))。这个权重具有自适应特性：当策略变化处于中间区域时权重最大，当策略变化过大或过小时权重自动衰减，实现了对异常更新的自然抑制。

非对称温度设计

SAPO 的核心创新之一是非对称温度：对正样本和负样本使用不同的温度参数。

实验中采用 τ_pos = 1.0，τ_neg = 1.05，即负样本使用更大的温度。更大的温度意味着更平缓的门控曲线，对策略变化的容忍度更高，约束更宽松。

这一设计的动机在于：降低负样本概率需要更谨慎的控制。如果对负样本施加过强约束（小温度），可能导致概率下降过快而引发数值问题；但如果约束过弱（大温度），又无法有效抑制不良行为。τ_neg = 1.05 是在稳定性和有效性之间的平衡点。消融实验表明，这个看似微小的差异（0.05）对训练稳定性有显著影响。

使用不同温度设置的SAPO从Qwen330B-A3B-Base微调的冷启动模型的训练奖励和验证性能。对负标记使用较高温度会带来最稳定的训练动态，否则会导致明显的不稳定性

与 GSPO 和 GRPO 的关系

SAPO 可以被理解为 GSPO 和 GRPO 思想的融合。

从 GSPO 继承的特性包括：组级优势估计 Â_i（而非 token 级），序列内 token 共享相同的优势值，保持了序列级的优化一致性。从 GRPO 继承的特性包括：token 级重要性采样比率 r_i, t(θ)，保留了对每个 token 的细粒度控制能力。

SAPO 的独特贡献是软门控机制：既不像 GRPO 那样在 token 级别进行硬裁剪导致梯度不连续，也不像 GSPO 那样完全放弃 token 级自适应性。软门控提供了一种中间方案，在保持梯度平滑的同时实现自适应约束。

🎯 训练细节与实验结果

作者以 Qwen3-30B-A3B 模型为基础进行实验，评估基准包括 AIME’24 和 LiveCodeBench。训练采用标准的 RL 设置，软门控温度参数设为 τ_pos = 1.0，τ_neg = 1.05。

在不同强化学习算法下，基于Qwen3-30BA3B-Base微调的冷启动模型的训练奖励和验证性能。与GSPO和GRPO-R2（两者均出现早期训练崩溃）相比，SAPO展现出持续稳定的学习能力，并取得了更高的最终性能

温度消融实验揭示了几个关键发现。首先，非对称温度优于对称温度：使用相同温度处理正负样本会导致性能下降，验证了非对称设计的必要性。其次，负样本温度敏感：τ_neg 的微小变化对训练稳定性影响显著，过小会导致数值问题，过大会削弱对负样本的抑制效果。最后，正样本温度相对鲁棒：τ_pos 在较大范围内变化对性能影响较小。

在 Qwen3-VL（视觉语言模型）的训练中，SAPO 同样表现出色。视觉语言任务的奖励信号通常更稀疏、噪声更大，软门控的平滑特性有效缓解了这些问题。相比硬裁剪方法，SAPO 在多模态场景下展现出更好的训练稳定性和最终性能。

Qwen3-VL-30B-A3B从初步冷启动初始化开始的训练奖励和验证性能，表明在相同的计算预算下，SAPO实现了持续改进，并优于GSPO和GRPO-R2

💡 洞察与结论

软门控的优势在于提供了梯度的连续性保证。硬裁剪在边界处产生梯度突变，可能导致优化过程中的震荡；软门控通过 sigmoid 函数实现平滑过渡，使训练动态更加可预测。这一改进看似简单，却从根本上改善了 RL 训练的稳定性。

非对称设计的重要性体现了对正负样本不同优化动态的深刻理解。提升正样本概率和降低负样本概率是两个本质不同的操作，前者受限于概率上限 1，后者可能导致概率趋近于 0 而引发数值问题。非对称温度正是对这种差异的直接回应。

方法论的演进从 GRPO 到 GSPO 再到 SAPO，体现了 LLM RL 领域对优化粒度和约束机制的持续探索。GRPO 发现了组内相对优势估计的价值，GSPO 揭示了序列级优化的理论优势，SAPO 则进一步引入了软约束和自适应机制。每一步演进都解决了前一方法的关键痛点，为大模型 RL 训练提供了更完善的解决方案。

Notes > Reinforcement Learning

#Research #Algorithm #SAPO

SAPO——软自适应策略优化算法

https://choucisan.xyz/SAPO.html

Author

choucisan

Posted on

December 29, 2025

Licensed under

GDPO——分组奖励解耦归一化策略优化算法 Previous

GSPO——序列级策略优化算法 Next