小米1T参数模型推理破1000 TPS
值得看指数 75.0 NO. 009 · 2026.06.09
发布2026/06/08Score389Comments271
为什么值得看
小米发布MiMo-V2.5-Pro-UltraSpeed,将1万亿参数大模型的生成速度推至1000 tokens/秒,并开放API。这意味着超大规模模型的实时交互门槛被显著拉低,对需要低延迟的AI应用(如实时对话、代码补全)有直接工程价值。
媒体预览
编辑判断
1000 TPS的1T模型不是靠暴力堆卡做到的,小米官方提到用了TILER-T架构和动态专家路由优化。关键问题是:这1000 TPS是在多少卡、什么精度下测的?如果是FP8或INT8且卡数可控,那实际部署成本会大幅低于GPT-4级别模型的当前方案。
对做AI infra的团队来说,需要验证两个点:一是长上下文下是否还能维持这个吞吐,二是MoE模型的稀疏激活比例到底能做到多少——这直接决定你的实际算力账单。小米这次把API直接放出来了,建议拿自家prompt测一下首token延迟和端到端稳定性,比看数字更有意义。