NVIDIA 统一多模态世界模型开源
值得看指数 74.0 NO. 024 · 2026.06.05
upvotes62comments0
为什么值得看
Cosmos 3 用混合 Transformer 架构统一处理语言、图像、视频、音频和动作序列,在多项理解与生成任务上达到 SOTA。对物理 AI 和机器人方向的工程师,这意味着世界模型终于有一个能端到端训练的多模态基座,不再需要用多个独立模型拼接。
媒体预览
编辑判断
NVIDIA 做 Cosmos 系列的核心意图是抢占物理 AI 的"GPT 时刻"——世界模型是机器人 sim-to-real 的关键瓶颈,之前大家用 Sora、GAIA-1 等视频生成模型凑合,但它们不原生支持动作序列和传感器数据。
Cosmos 3 的 omnimodal 设计直接把动作 token 和音频压进同一个 latent space,这对做机器人模仿学习(如用扩散 policy 或 ACT)的团队是重大利好,理论上可以端到端训练而不需要额外的感知模块。不过论文摘要没透露模型规模和训练成本,7B 还是 70B 直接决定能不能在实验室跑起来,建议等完整技术报告出来再评估落地可行性。
热度 62 upvotes 但 0 评论,说明社区还在观望——可能是刚发布或缺乏 demo,建议优先关注 HuggingFace 是否放出了权重和推理代码。