谷歌开源12B多模态模型Gemma 4

#HF_MODEL HuggingFace Models 2026.06.13

推荐指数 76.0 NO. 004 · 2026.06.13

likes961downloads911,544

为什么值得看

Google DeepMind 发布 Gemma 4 系列 12B 统一多模态模型，支持文本、音频、图像输入，Apache 2.0 协议开源。12B 参数规模在端侧部署和多模态任务之间取得平衡，适合预算有限的创业团队快速验证产品。

媒体预览

编辑判断

Gemma 4 12B 的真正看点不在参数规模，而是 Google 首次把 E2B/E4B 级别的多模态能力下放到消费级硬件可跑的区间。此前同级别的 Qwen2.5-VL 或 Llama 3.2 Vision 在多模态统一性上做得不够彻底，往往需要拆分 pipeline。

这个模型单卡 24GB VRAM 就能跑满精度，量化后 8GB 显存可用，对想做「手机端实时音视频理解」的团队是降本关键。如果你之前因为 Llama 3.2 11B 的音频支持缺失而放弃端侧方案，现在值得重新评估。

下载量 91 万但 likes 仅 961，说明大量用户在静默测试而非公开讨论，早期窗口期还在。