策略蒸馏新算法防模型崩溃

#HF_PAPERS HuggingFace Papers 2026.06.04

推荐指数 65.0 NO. 023 · 2026.06.04

upvotes33comments1

为什么值得看

提出信任区域约束的在线策略蒸馏方法，解决学生模型在模仿教师策略时因分布偏移导致的性能崩溃问题。对需要压缩大强化学习模型到端侧部署的团队有直接价值。

媒体预览

编辑判断

策略蒸馏在 RL 领域长期被 KL 散度约束的调参噩梦困扰，教师强但学生学废是常态。这篇把 PPO 的信任区域思想搬过来，用裁剪目标替代硬 KL 约束，相当于给蒸馏过程加了保险杠。33 个 upvote 在 HuggingFace Papers 里不算爆，但方法足够简洁，复现成本低。如果你在用 RLHF 训完大模型后需要蒸馏到小模型做推理加速，可以优先试这个而不是传统 KL 散度方案，大概率少调一周参数。

查看原文 →