MoE路由新设计:用流形幂迭代提速
推荐指数 59.0 NO. 025 · 2026.06.12
upvotes74comments2
为什么值得看
提出基于流形幂迭代的MoE路由器重设计方法,替代传统线性投影实现更高效专家选择。对部署大规模MoE模型的团队有潜在性能收益,尤其在延迟敏感场景。
媒体预览
编辑判断
MoE模型的路由瓶颈长期被忽视,大家默认用softmax+top-k的线性投影,但专家负载不均衡和通信开销一直没根治。这篇把路由问题放到流形优化框架下,用幂迭代替代矩阵分解,理论上能把路由计算复杂度从O(d^2)降到接近线性。
目前HuggingFace上只有74票热度,说明还没被工程圈注意到。但代码如果开源,对已经在用DeepSeek-MoE、Qwen-MoE做推理优化的团队会是低 hanging fruit。建议等作者放代码后优先测TP-heavy场景下的实际latency收益,论文里的理论加速比和真实all-reduce开销之间通常有gap。