策略蒸馏新算法防模型崩溃
为什么值得看
提出信任区域约束的在线策略蒸馏方法,解决学生模型在模仿教师策略时因分布偏移导致的性能崩溃问题。对需要压缩大强化学习模型到端侧部署的团队有直接价值。
媒体预览
编辑判断
策略蒸馏在 RL 领域长期被 KL 散度约束的调参噩梦困扰,教师强但学生学废是常态。这篇把 PPO 的信任区域思想搬过来,用裁剪目标替代硬 KL 约束,相当于给蒸馏过程加了保险杠。33 个 upvote 在 HuggingFace Papers 里不算爆,但方法足够简洁,复现成本低。如果你在用 RLHF 训完大模型后需要蒸馏到小模型做推理加速,可以优先试这个而不是传统 KL 散度方案,大概率少调一周参数。