AMAZINGINDEX.COM 每日 AI 简报
54.0
VOL. 2026.06
2026.06.09
← 返回 2026.06.09 日报
日报快照 · Daily Snapshot
NO. 009

小米1T参数模型推理破1000 TPS

#ARTICLE HackerNews 2026.06.09
值得看指数 75.0 NO. 009 · 2026.06.09
发布2026/06/08Score389Comments271

小米发布MiMo-V2.5-Pro-UltraSpeed,将1万亿参数大模型的生成速度推至1000 tokens/秒,并开放API。这意味着超大规模模型的实时交互门槛被显著拉低,对需要低延迟的AI应用(如实时对话、代码补全)有直接工程价值。

小米1T参数模型推理破1000 TPS

1000 TPS的1T模型不是靠暴力堆卡做到的,小米官方提到用了TILER-T架构和动态专家路由优化。关键问题是:这1000 TPS是在多少卡、什么精度下测的?如果是FP8或INT8且卡数可控,那实际部署成本会大幅低于GPT-4级别模型的当前方案。

对做AI infra的团队来说,需要验证两个点:一是长上下文下是否还能维持这个吞吐,二是MoE模型的稀疏激活比例到底能做到多少——这直接决定你的实际算力账单。小米这次把API直接放出来了,建议拿自家prompt测一下首token延迟和端到端稳定性,比看数字更有意义。

查看原文 →