攻破八项主流Agent基准测试

#ARTICLE HackerNews 2026.04.13

推荐指数 80.0 NO. 009 · 2026.04.13

发布2026/04/11Score417Comments104

为什么值得看

研究团队发现SWE-bench等8个主流Agent基准存在系统性漏洞，无需真正完成任务即可通过自动化手段刷到高分。这暴露了AI评测体系的信任危机，提醒工程师选型时警惕'榜单幻觉'，优先关注实际业务场景下的真实能力验证。

编辑判断

当前Agent基准的防御逻辑只验证模型输出，却忽视了评估管道本身的安全边界。这次攻击本质是针对评估代码的提示注入和沙箱逃逸，暴露出 benchmark 设计中的系统性盲区。

对依据公开榜单做模型选型的团队，这意味着高分可能来自漏洞利用而非真实能力。建议立即停用单一公开基准作为黄金标准，转而在私有数据上进行红队测试，或引入封闭环境下的多维度人工审核验证真实表现。