Soft Adaptive Policy Optimization (SAPO)

版本依赖:ms-swift>=3.11

Soft Adaptive Policy Optimization (SAPO) 针对 GRPO 中硬裁剪(hard clipping)带来的问题,提出了一种基于温度控制的软门控(soft gate)机制,用于平滑地衰减离策略更新,同时保留有用的学习信号。

背景与动机

在强化学习训练 LLM 时,GRPO 通过计算 token 级别的重要性采样比(Importance Sampling Ratio)来处理 off-policy 训练:

\[ r_t = \frac{\pi_\theta(y_t|x, y_{<t})}{\pi_{\theta_{\mathrm{old}}}(y_t|x, y_{<t})} \]

然而,token 级别的重要性采样比往往表现出高方差,这一现象在以下情况下可能更严重:

  • 长文本生成

  • MoE 模型的路由异质性:采样时的 old-policy 模型与训练模型可能使用不同的专家路由,导致 logps 差异显著放大

为此,GRPO 通过硬裁剪来限制策略更新的幅度:

\[ L^{\mathrm{GRPO}} = -\min\left( r_t \cdot A, \mathrm{clip}(r_t, 1-\epsilon, 1+\epsilon) \cdot A \right) \]

硬裁剪的困境:硬裁剪难以在稳定性和学习效率之间取得平衡——裁剪范围过严格会限制有效样本的数量,而过宽松则会引入离策略样本的噪声梯度,导致训练不稳定。

SAPO 方法

SAPO 使用温度控制的 sigmoid 软门控函数替代硬裁剪,实现平滑的梯度衰减。

软门控函数

SAPO 的核心是使用 sigmoid 函数对重要性采样比进行软门控:

对于正向优势(\(A > 0\)),使用正向门控:

\[ g^{+}_t = \sigma\left( \tau_{\mathrm{pos}} \cdot (r_t - 1) \right) \cdot \frac{4}{\tau_{\mathrm{pos}}} \]

对于负向优势(\(A < 0\)),使用负向门控:

\[ g^{-}_t = \sigma\left( \tau_{\mathrm{neg}} \cdot (r_t - 1) \right) \cdot \frac{4}{\tau_{\mathrm{neg}}} \]

其中:

  • \(\sigma(\cdot)\) 是 sigmoid 函数

  • \(\tau_{\mathrm{pos}}\)\(\tau_{\mathrm{neg}}\) 是温度参数,控制门控函数的斜率

  • \(r_t\) 是重要性采样比

SAPO 损失函数

\[ L^{\mathrm{SAPO}} = -g_t \cdot A \]

其中 \(g_t = g^{+}_t\)\(A > 0\)\(g_t = g^{-}_t\)\(A < 0\)

温度参数

温度参数 \(\tau\) 控制软门控函数的衰减速率,数值越大,衰减越快。

tau curve

论文指出正向优势会提升采样token的logit,并降低所有未采样token的logit;负向优势相反,提高许多未采样token的logit,可能会扩散到大量无关token上,带来一定的不稳定性。所以论文推荐设置温度 \(\tau_\text{neg} > \tau_\text{pos}\),来使负向奖励的token梯度衰减更快,提升训练的稳定性和性能。

论文默认推荐 \(\tau_{\mathrm{pos}} = 1.0\)\(\tau_{\mathrm{neg}} = 1.05\)

参数设置

参数 类型 默认值 说明
--loss_type str - 设置为 sapo
--tau_pos float 1.0 正向优势的温度参数,控制门控斜率
--tau_neg float 1.05 负向优势的温度参数,控制门控斜率
swift rlhf \
    --rlhf_type grpo \
    --loss_type sapo \
    --tau_pos 1.0 \
    --tau_neg 1.05 \
    # ... 其他参数

训练脚本参考

SAPO 的软门控机制仅在 off-policy 训练下生效。 SAPO 中的重要性采样粒度为 token 级别(即 importance_sampling_level 默认设置为 token),与 GSPO 冲突。