策略蒸馏几何机制被首次解析
值得看指数 78.0 NO. 017 · 2026.06.10
upvotes55comments1
为什么值得看
论文从几何视角揭示了on-policy知识蒸馏为何有效及何时失效,推导出最优蒸馏的闭式解。对正在做模型压缩或小模型训练的团队有直接指导意义,能避免盲目调参。
媒体预览
编辑判断
On-policy蒸馏在RL和LLM后训练中越来越常见,但之前全是经验调参。这篇论文的关键贡献是证明了最优蒸馏温度与教师-学生logits的夹角直接相关,温度不是越高越好也不是越低越好,而是有个跟几何对齐度绑定的闭式解。
实际落地来看,如果你在用SFT做模型蒸馏且效果不稳定,问题可能出在温度设置与当前数据分布不匹配上。论文方法不需要额外算力,直接替换温度调度策略即可,但代码尚未开源,需要等作者放出来再验证工程可行性。