AMAZINGINDEX.COM 每日 AI 简报
53.3
VOL. 2026.06
2026.06.05
← 返回 2026.06.05 日报
日报快照 · Daily Snapshot
NO. 024

NVIDIA 统一多模态世界模型开源

#HF_PAPERS HuggingFace Papers 2026.06.05
值得看指数 74.0 NO. 024 · 2026.06.05
upvotes62comments0

Cosmos 3 用混合 Transformer 架构统一处理语言、图像、视频、音频和动作序列,在多项理解与生成任务上达到 SOTA。对物理 AI 和机器人方向的工程师,这意味着世界模型终于有一个能端到端训练的多模态基座,不再需要用多个独立模型拼接。

NVIDIA 做 Cosmos 系列的核心意图是抢占物理 AI 的"GPT 时刻"——世界模型是机器人 sim-to-real 的关键瓶颈,之前大家用 Sora、GAIA-1 等视频生成模型凑合,但它们不原生支持动作序列和传感器数据。

Cosmos 3 的 omnimodal 设计直接把动作 token 和音频压进同一个 latent space,这对做机器人模仿学习(如用扩散 policy 或 ACT)的团队是重大利好,理论上可以端到端训练而不需要额外的感知模块。不过论文摘要没透露模型规模和训练成本,7B 还是 70B 直接决定能不能在实验室跑起来,建议等完整技术报告出来再评估落地可行性。

热度 62 upvotes 但 0 评论,说明社区还在观望——可能是刚发布或缺乏 demo,建议优先关注 HuggingFace 是否放出了权重和推理代码。

查看原文 →