本地跑大模型已可替代云端API

#ARTICLE HackerNews 2026.06.17

推荐指数 64.0 NO. 008 · 2026.06.17

发布2026/06/16Score756Comments344

为什么值得看

作者用2022年M2 Mac实测Mistral 7B、Gemma 3、OpenAI OSS-20B、Qwen 3 MOE等模型，本地推理质量已足够日常开发使用。对担心数据隐私、API成本或需要离线场景的工程师，本地部署正从玩具变为生产选项。

媒体预览

编辑判断

这篇文章的发布时间2026年6月是个关键信号——OpenAI刚开源了20B参数的GPT-OSS系列，加上Qwen3 MOE把激活参数量压到3B级别，本地可用的模型密度在过去18个月翻了数倍。

真正值得关注的不是'能不能跑'，而是'该不该切'。目前本地模型在代码补全、敏感数据处理、高频调用场景已有成本优势，但长上下文和复杂推理仍落后云端一个代差。建议团队现在就可以把非核心链路迁移到本地做AB测试，特别是用Ollama或llama.cpp搭内部Copilot的团队，延迟和隐私收益通常超出预期。

另一个隐含信号是苹果生态的护城河：64GB统一内存的Mac在本地推理性价比上仍碾压同价位x86+独显组合，做端侧AI工具创业的团队需要把M系列Mac当作首要优化目标。

社区反馈

意见分歧 284 条评论

核心争论：本地部署成本是否合理：对专业人士值得投资，但对多数人仍属昂贵

_doctor_love

"Just get a 64GB Mac with 1TB of storage!" LOL - some of us have a budget

tjwebbnorfolk

AI and budgets don't mix well at the moment

techscruggs

He is using a 2022 M2, which you can get that for about $2k used. That is beyond reasonable.

替代方案：云端APIClaude CodeClaude订阅AWSStrix HaloMac Studiomakerspacestool rentalsco-op shops

查看原文 →