Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning
论文发现在以 RLVR等方法训练大型语言模型推理能力时,驱动学习进步的关键在于一小部分高熵“少数 token”,而并非大多数信息熵低的 token。
论文指出,在模型推理的 token 分布中,只有极少数信息熵较高的 token 起到了主导作用。这些 token 往往出现在推理和决策路径分歧最大的关键节点(如 "wait"、"since" 等),决定了模型能否习得复杂推理任务。而大多数熵低的 token 对模型推理能力的提升作用有限。论文提出只对高熵 token 计算策略梯度、舍弃低熵 token 的梯度。
token 熵公式如下
\( H_t := -∑_{j=1}^{V} p_{t,j} \log p_{t,j}, \qquad where (p_{t,1}, ···, p_{t,V}) = \mathbf{p}_t = π_θ(\cdot | \mathbf{q}, \mathbf{o}_{<t}) = \text{Softmax}(\frac{\mathbf{z}_t}{T}) \)
其中
\(\pi_\theta\):参数为 \(\theta\) 的模型
\(\mathbf{q}\):输入查询(input query)。
\(\mathbf{o}_{<t} = (o_1, o_2, \cdots, o_{t-1})\):时间步 \(t\) 之前已生成的 token 序列。
\(V\):词表大小(vocabulary size)。
\(\mathbf{z}_t \in \mathbb{R}^V\):时间步 \(t\) 的 pre-softmax 逻辑值(logits)。
\(\mathbf{p}_t \in \mathbb{R}^V\):模型对词表的概率分布。
\(T \in \mathbb{R}\):解码温度(decoding temperature),控制分布的平滑程度。
熵的计算对象:\(H_t\) 是 token 生成分布 \(\mathbf{p}_t\) 的熵,用于衡量训练策略 \(\pi_\theta\) 在给定上下文 \((\mathbf{q}, \mathbf{o}_{<t})\) 下的不确定性。
"Token entropy" \(H_t\) 始终指向位置 \(t\) 的生成分布 \(\mathbf{p}_t\) 的不确定性,而非 token \(o_t\) 本身的属性。即\(H_t\) 是位置 \(t\) 对应分布 \(\mathbf{p}_t\) 的熵,与采样得到的 token \(o_t\) 无关。
在实践中,我们可以在 GRPO 训练中通过参数 top_entropy_quantile 控制训练范围。论文实验设置该参数为 0.2,即每次仅对处于熵分布前 20% 的 token 进行训练优化。
同时使用参数log_entropy,可以记录训练过程中的熵值变化,参考文档