# Training-Inference-Mismatch **版本依赖**:ms-swift>=3.11 **TL;DR**: GRPO 引入 vLLM 加速采样过程的同时,也引入了训练-推理不一致(Training-Inference Mismatch)的问题,从而可能影响训练稳定性。本文将解释这个问题的背景、原因以及相应的解决方案。 ## Background ### GRPO 的基本假设 GRPO (Group Relative Policy Optimization) 的训练目标可以表示为: $$ \mathcal{L}_{\text{GRPO}} = - \mathbb{E}_{y \sim \pi_\theta} \left[ \min \left( r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t \right) \right] $$ 其中: - $r_t(\theta) = \frac{\pi_\theta(y_t|x, y_{ \tau$ 2. **且** $\hat{A}_i < 0$ 其中: - $\pi_{\text{old}}$ 优先使用 `rollout_per_token_logps`(rollout/行为策略的 logprobs),若不存在则使用 `old_per_token_logps` - $\tau$ 是用户设置的阈值(`--off_policy_sequence_mask_delta`,默认 None 表示关闭) 参考资料 1. https://yingru.notion.site/When-Speed-Kills-Stability-Demystifying-RL-Collapse-from-the-Training-Inference-Mismatch-271211a558b7808d8b12d403fd15edda 2. https://fengyao.notion.site/off-policy-rl 3. https://github.com/volcengine/verl/blob/main/verl/trainer/ppo/rollout_corr_helper.py 4. [DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models](https://arxiv.org/abs/2512.02556)