AMAZINGINDEX.COM 每日 AI 简报
53.3
VOL. 2026.06
2026.06.05
← 返回 2026.06.05 日报
日报快照 · Daily Snapshot
NO. 007

Google 开源 120 亿参数多模态模型 Gemma 4

#HF_MODEL HuggingFace Models 2026.06.05
值得看指数 66.0 NO. 007 · 2026.06.05
likes377downloads14,866

Google DeepMind 发布 Gemma 4 系列 12B 统一多模态模型,支持文本、音频理解,采用 Apache 2.0 协议开源。对 AI 工程师而言,这是目前可商用的大厂多模态模型中参数效率最高的选择之一,适合资源受限但需要原生多模态能力的场景。

Google 开源 120 亿参数多模态模型 Gemma 4

Gemma 4 12B 的隐藏看点在于 Google 首次把 E2B/E4B 级别的多模态能力下放到 12B 参数档,而此前开源社区的多模态选择要么是 Llama 系的 70B+ 巨兽,要么是 Qwen-VL 这类非商用协议模型。

做端侧 AI 或垂直场景落地的团队之前面临两难:用 Llama 3.2 11B 视觉版缺少音频能力,用 Qwen2-Audio 又受协议限制。Gemma 4 的 Apache 2.0 + 12B 组合填补了这个空白,尤其适合语音助手、车载交互等需要文本音频融合但算力预算有限的场景。

建议关注其实际的音频理解 benchmark,Google 博客提到在部分任务上接近 Gemini 1.5 Flash 水平,如果属实,这将是小模型能力边界的一次显著推进。

查看原文 →