# Training-Inference-Mismatch **版本依赖**:ms-swift>=3.11 **TL;DR**: GRPO 引入 vLLM 加速采样过程的同时,也引入了训练-推理不一致(Training-Inference Mismatch)的问题,从而可能影响训练稳定性。本文将解释这个问题的背景、原因以及相应的解决方案。 ## Background ### GRPO 的基本假设 GRPO (Group Relative Policy Optimization) 的训练目标可以表示为: $$ \mathcal{L}_{\text{GRPO}} = - \mathbb{E}_{y \sim \pi_\theta} \left[ \min \left( r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t \right) \right] $$ 其中: - $r_t(\theta) = \frac{\pi_\theta(y_t|x, y_{