NVIDIA 统一多模态世界模型开源

#HF_PAPERS HuggingFace Papers 2026.06.05

推荐指数 74.0 NO. 024 · 2026.06.05

upvotes62comments0

为什么值得看

Cosmos 3 用混合 Transformer 架构统一处理语言、图像、视频、音频和动作序列，在多项理解与生成任务上达到 SOTA。对物理 AI 和机器人方向的工程师，这意味着世界模型终于有一个能端到端训练的多模态基座，不再需要用多个独立模型拼接。

媒体预览

编辑判断

NVIDIA 做 Cosmos 系列的核心意图是抢占物理 AI 的"GPT 时刻"——世界模型是机器人 sim-to-real 的关键瓶颈，之前大家用 Sora、GAIA-1 等视频生成模型凑合，但它们不原生支持动作序列和传感器数据。

Cosmos 3 的 omnimodal 设计直接把动作 token 和音频压进同一个 latent space，这对做机器人模仿学习（如用扩散 policy 或 ACT）的团队是重大利好，理论上可以端到端训练而不需要额外的感知模块。不过论文摘要没透露模型规模和训练成本，7B 还是 70B 直接决定能不能在实验室跑起来，建议等完整技术报告出来再评估落地可行性。

热度 62 upvotes 但 0 评论，说明社区还在观望——可能是刚发布或缺乏 demo，建议优先关注 HuggingFace 是否放出了权重和推理代码。

查看原文 →