策略蒸馏新算法：信任区域行为混合

#HF_PAPERS HuggingFace Papers 2026.06.02

推荐指数 59.0 NO. 024 · 2026.06.02

upvotes50comments1

为什么值得看

提出一种在线策略蒸馏方法，通过信任区域约束优化教师-学生策略的行为混合，解决传统蒸馏中学生策略偏离最优解的问题。对需要部署轻量化决策模型的机器人、游戏AI等场景有直接价值。

媒体预览

编辑判断

On-policy distillation 长期被 off-policy 方法压制，因为在线采样效率低且学生容易学崩。这篇把 trust region 的约束显式做到行为混合里，本质是用教师的 value function 给学生画了一个安全学习区。

50个upvotes在HF Papers里不算高，但方向很务实——机器人领域急着把大策略蒸馏到小策略上机载部署。如果开源代码完整，值得跟一下实际训练稳定性，这类方法复现坑通常很多。