SWE-bench Verified 已失效

#ARTICLE HackerNews 2026.04.27

推荐指数 71.0 NO. 007 · 2026.04.27

发布2026/04/26Score140Comments97

为什么值得看

主流代码基准测试 SWE-bench Verified 被前沿模型刷爆，14 个模型得分超 60% 却掩盖了实际修复率仅 7% 的真相。AI 工程师需要警惕：你的模型选型可能正在被过时的 benchmark 误导。

编辑判断

这个基准失效的核心原因是 pass@k 指标被滥用——模型生成 50 个 patch 只要有一个通过就算成功，但实际生产环境只能提交一次。OpenAI 和 Anthropic 内部早就不看这个指标了，他们用的是更严格的 pass@1 加人工审核。

如果你还在用 SWE-bench Verified 分数来对比 Claude、GPT-4o、Gemini 的编程能力，建议直接切到 SWE-bench Lite 或者自己搭一个 pass@1 + 实际编译运行的私有测试集。创业团队尤其要注意：投资人问 coding agent 能力时，拿 Verified 分数讲故事会越来越难取信。

查看原文 →