策略蒸馏几何机制被首次解析

#HF_PAPERS HuggingFace Papers 2026.06.10

值得看指数 78.0 NO. 017 · 2026.06.10

upvotes55comments1

为什么值得看

论文从几何视角揭示了on-policy知识蒸馏为何有效及何时失效，推导出最优蒸馏的闭式解。对正在做模型压缩或小模型训练的团队有直接指导意义，能避免盲目调参。

媒体预览

编辑判断

On-policy蒸馏在RL和LLM后训练中越来越常见，但之前全是经验调参。这篇论文的关键贡献是证明了最优蒸馏温度与教师-学生logits的夹角直接相关，温度不是越高越好也不是越低越好，而是有个跟几何对齐度绑定的闭式解。

实际落地来看，如果你在用SFT做模型蒸馏且效果不稳定，问题可能出在温度设置与当前数据分布不匹配上。论文方法不需要额外算力，直接替换温度调度策略即可，但代码尚未开源，需要等作者放出来再验证工程可行性。