小米1T参数模型推理破1000 TPS

#ARTICLE HackerNews 2026.06.09

值得看指数 75.0 NO. 009 · 2026.06.09

发布2026/06/08Score389Comments271

为什么值得看

小米发布MiMo-V2.5-Pro-UltraSpeed，将1万亿参数大模型的生成速度推至1000 tokens/秒，并开放API。这意味着超大规模模型的实时交互门槛被显著拉低，对需要低延迟的AI应用（如实时对话、代码补全）有直接工程价值。

媒体预览

编辑判断

1000 TPS的1T模型不是靠暴力堆卡做到的，小米官方提到用了TILER-T架构和动态专家路由优化。关键问题是：这1000 TPS是在多少卡、什么精度下测的？如果是FP8或INT8且卡数可控，那实际部署成本会大幅低于GPT-4级别模型的当前方案。

对做AI infra的团队来说，需要验证两个点：一是长上下文下是否还能维持这个吞吐，二是MoE模型的稀疏激活比例到底能做到多少——这直接决定你的实际算力账单。小米这次把API直接放出来了，建议拿自家prompt测一下首token延迟和端到端稳定性，比看数字更有意义。