Gemma 2B CPU跑分超越GPT-3.5

#ARTICLE HackerNews 2026.04.16

推荐指数 76.0 NO. 015 · 2026.04.16

发布2026/04/15Score76Comments41

为什么值得看

Google的Gemma 2B在笔记本CPU上MT-Bench得分8.0，超越GPT-3.5 Turbo的7.94，且通过6处针对性代码修复可提升至8.2。这证明小模型经错误模式修正即可在消费级硬件上匹敌大模型API，大幅降低AI应用部署成本。

编辑判断

之前大家跑小模型要么直接量化牺牲精度，要么上RAG补知识，但这个案例证明Gemma 2B本身能力足够，只是输出存在系统性不稳定。通过针对特定错误模式（算对但选错、证明对但答错）做规则化后处理，用几十行Python就能提升0.2分，成本远低于换大模型。

这对做边缘计算和低成本API服务的团队是重要信号：不需要盲目追参数规模，先深挖现有小模型的错误分类和修复策略。如果你在做客服机器人或文本生成类应用且预算有限，值得先花一周时间做类似的错误模式分析，而不是直接升级模型规格。