On-Policy RL Meets Off-Policy Experts: Harmonizing SFT and RL via Dynamic Weighting (CHORD)

本文档介绍论文 On-Policy RL Meets Off-Policy Experts: Harmonizing SFT and RL via Dynamic Weighting 中提出的 CHORD 算法。CHORD 的核心思想是在强化学习过程中，动态融合专家数据（SFT），通过全局权重 μ + token 级别权重 φ 的双重控制机制，在模仿与探索之间实现平衡。

算法概述

CHORD 算法通过在 GRPO loss 中引入 SFT loss，实现动态混合训练。总体目标函数为：

\[ \mathcal{L}_{\text{CHORD}} = (1 - \mu) \cdot \mathcal{L}_{\text{GRPO}} + \mu \cdot \mathcal{L}_{\text{SFT}} \]

其中：

我们可以基于 GRPO 训练实现 CHORD 训练。

CHORD 需要在训练时指定额外的 SFT 数据集和批量大小：

论文提出了两种算法变体：CHORD-µ 和 CHORD-ϕ。

通过在训练过程中逐步 衰减 μ，实现从模仿专家到自主探索的过渡。

参数：

CHORD-ϕ 通过 token-wise 权重函数 φ 动态控制每个专家 token 的梯度贡献。

φ 定义： $$ \phi(y_t^\star, \pi_\theta) = p_t \cdot (1 - p_t) $$

其中：

开启 φ 加权的参数：

注：如果使用常数 μ 值，设置 chord_mu_peak 与 chord_mu_valley 相同

mu值衰减与loss计算代码实现

请参考`GRPOTrainer`的`_compute_chord_loss`方法：

训练参考该脚本