给代码代理定探索预算，逼它们学会高效搜代码

#HF_PAPERS HuggingFace Papers 2026.06.10

值得看指数 73.0 NO. 018 · 2026.06.10

upvotes94comments1

为什么值得看

SWE-Explore 首个量化评估代码代理仓库探索能力的基准，要求代理在限定行数内按相关性排序代码区域。发现主动探索策略显著优于传统检索方法，填补了 SWE-bench 只关注最终修复结果的评估盲区。

媒体预览

编辑判断

当前主流代码代理如 Devin、OpenHands 的架构里，检索模块和修复模块往往是割裂的，SWE-bench 的端到端评分掩盖了'找错代码'这个瓶颈。这个基准把探索过程暴露出来，等于给 agent 设计提供了可优化的中间指标。

论文方法很务实：用 line budget 强制代理做优先级决策，而不是无限制地 dump 上下文给 LLM。这对工程落地很关键——实际部署时代码库动辄百万行，token 成本和延迟都扛不住全量检索。

代码和评估框架已开源，如果你在做 coding agent 的检索策略优化，可以直接接入这个 benchmark 做消融实验，比自己在 SWE-bench 上跑完整修复便宜得多。