Mac本地跑Gemma 4编码智能体实战

#ARTICLE HackerNews 2026.06.13

推荐指数 57.0 NO. 016 · 2026.06.13

发布2026/06/12Score97Comments33

为什么值得看

作者基于Gemma 4的MTP加速更新，在macOS上搭建了一套支持OpenAI兼容API、可处理截图的本地编码智能体，实现实时响应。对经常断网或注重数据隐私的开发者有直接参考价值。

媒体预览

编辑判断

本地编码智能体的核心矛盾从来不是能不能跑，而是延迟能不能忍。之前大家要么用Ollama图方便但速度慢，要么上vLLM/Llama.cpp调参到崩溃。这篇方案的关键在于Unsloth对Gemma 4的MTP优化把token生成速度翻倍，让13B级别的模型在Mac上真正可用，而不是玩具。

另一个容易被忽略的细节是OpenAI兼容API的封装——这意味着可以直接插进Cursor、Claude Code、Aider等现有工作流，不用重建工具链。如果你现在用Claude Code但担心代码泄露给云端，这套方案是少数能无缝切换的替代。

建议关注Gemma 4的vision能力在UI代码生成上的表现，目前本地多模态编码智能体这个品类几乎空白。

社区反馈

意见分歧 35 条评论

核心争论：本地模型MTP加速效果有限，MoE模型收益低于dense模型，内存门槛高

cdolan

Is there a link to the video? It did not render when I went to the page. Curious about the real-time feel of this

dewey

That's the direct link: https://ikyle.me/blog/2026/how-to-setup-a-local-coding-agent...

c-hendricks

Note this is cut to just before the model responds, so not a great way for people to judge the real-time feel of this.

替代方案： ollamaopencodeoMLXClaudeQwen3.6-35B-A3B-MTPQwen variants