Mistral 开源 MoE 模型碾压 Llama 2 70B
推荐指数 85.0 NO. 001 · 2026.06.14
发布2023/12/11
为什么值得看
Mixtral 8x7B 采用稀疏混合专家架构(SMoE),以 12B 活跃参数量在多数基准上超越 Llama 2 70B,推理速度快 6 倍。对 AI 工程师意味着:用更小成本跑更强模型,Apache 2.0 许可可直接商用。
编辑判断
MoE 架构之前在大厂内部用得多(Google 的 Switch Transformer、OpenAI 的 GPT-4 据传也是),但开源社区一直缺一个能打的实现。Mixtral 的关键突破是把专家路由做得足够高效,让 8 个 7B 专家每次只激活 2 个,既保住性能又控住显存。
之前做私有化部署的团队在 70B 模型面前基本只能上 A100 多卡,Mixtral 让单张 24G 显存就能跑起来,这对预算有限的创业公司和做边缘部署的团队是质变。已经有团队在测用它替换现有的 Llama 2 70B 服务,成本能砍一半以上。
值得警惕的是:MoE 的负载均衡和专家并行在工程上仍有坑,如果你的场景对延迟极度敏感(比如实时对话),建议先跑自己的 benchmark,别只看官方数字。