多模态模型
多模态模型的竞争焦点正从“看懂图片”转向跨模态生成与编辑:Gemini Omni 这类模型把文本、图像、音频和视频放进同一推理与创作链条,开始影响内容生产、搜索、教育和产品交互。
信号流
近期要点
· SMPTE 将其音视频工程标准从付费墙后释放出来,任何人可免费访问。对 AI 视频生成、多模态模型开发者而言,这意味着终于有了官方技术规范来对齐输出格式,减少兼容性试错成本。
· AI 视频生成领域长期存在'能生成但不对齐'的问题——模型输出的帧率、色彩空间、HDR 元数据往往与主流播放平台不兼容,团队需要反复调试。SMPTE 标准免费开放后,Runway、Pika 这类工具可以直接对标 ST 2084(PQ)、ST 2094(动态元数据)等规范,减少下游工程适配。 更深层的影响在版权与合规层面:SMPTE 标准也是内容溯源水印(如 ST 2067 系列)的技术基础,随着欧盟 AI Act 对生成内容标识的要求落地,免费获取这些标准会降低合规门槛。做 AI 视频基础设施的团队,建议把 SMPTE 规范纳入技术债清理清单。
1 evidence· 近30天累计 42 条信号,最新关注点包括:Swift 原生 AI 视频编辑器开源;用惯了 MacOS 启动台 Launchpad,于是我创建了 Windows 版的 Launchpad;UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning。
· 信号密度已经足够支撑持续观察,适合进入专题页重点跟踪。
6 evidence· Gemini Omni 将文本、图像、音频和视频作为输入,并通过对话生成和编辑视频。多模态竞争正在从“理解多种输入”走向“跨模态创作和修改”。
· 这会改变内容生产工具的形态:用户不再只输入 prompt 生成一次结果,而是围绕已有素材持续编辑。产品层面应关注一致性、物理合理性、版权来源和创作者工作流。
2 evidence· Gemini Omni 这类模型把世界知识、视频生成和对话式编辑结合起来,意味着多模态不再是单独能力,而会成为搜索、教育、设计、短视频和办公产品的交互层。
· 后续观察多模态模型时,应看输入输出覆盖、连续编辑能力、实时性、成本、版权控制和终端分发。谁能把模型能力嵌入高频产品,谁就更可能获得实际使用数据。
1 evidence