多奖励RL训练不稳定的方差自适应解法

#HF_PAPERS HuggingFace Papers 2026.05.27

推荐指数 74.0 NO. 017 · 2026.05.27

upvotes116comments2

为什么值得看

DVAO通过动态根据奖励方差调整目标权重，解决多奖励强化学习中的训练不稳定问题。对正在用RLHF/RLAIF做多目标对齐的团队有直接参考价值，尤其是奖励冲突导致模型崩溃的场景。

媒体预览

编辑判断

当前多奖励RL的主流做法是对各奖励项做固定加权或手动调参，但奖励尺度不一致时优势估计会爆炸，这是GRPO等算法在复杂场景下收敛差的根因之一。DVAO的方差自适应机制本质上是在线归一化各奖励的贡献，避免了手动调权重。

论文提到了bounded advantage magnitudes，但没有给出和GRPO、DAPO等近期工作的直接对比数据，也没有开源代码。如果你在做多维度RLHF（比如同时优化有用性、安全性、风格），建议等代码释放后优先在奖励冲突明显的任务上验证，而不是直接替换现有PPO管线。