Google 开源 120 亿参数多模态模型 Gemma 4
值得看指数 66.0 NO. 007 · 2026.06.05
likes377downloads14,866
为什么值得看
Google DeepMind 发布 Gemma 4 系列 12B 统一多模态模型,支持文本、音频理解,采用 Apache 2.0 协议开源。对 AI 工程师而言,这是目前可商用的大厂多模态模型中参数效率最高的选择之一,适合资源受限但需要原生多模态能力的场景。
媒体预览
编辑判断
Gemma 4 12B 的隐藏看点在于 Google 首次把 E2B/E4B 级别的多模态能力下放到 12B 参数档,而此前开源社区的多模态选择要么是 Llama 系的 70B+ 巨兽,要么是 Qwen-VL 这类非商用协议模型。
做端侧 AI 或垂直场景落地的团队之前面临两难:用 Llama 3.2 11B 视觉版缺少音频能力,用 Qwen2-Audio 又受协议限制。Gemma 4 的 Apache 2.0 + 12B 组合填补了这个空白,尤其适合语音助手、车载交互等需要文本音频融合但算力预算有限的场景。
建议关注其实际的音频理解 benchmark,Google 博客提到在部分任务上接近 Gemini 1.5 Flash 水平,如果属实,这将是小模型能力边界的一次显著推进。