AMAZINGINDEX.COM 每日 AI 简报
54.1
VOL. 2026.06
2026.06.10
← 返回 2026.06.10 日报
日报快照 · Daily Snapshot
NO. 018

给代码代理定探索预算,逼它们学会高效搜代码

#HF_PAPERS HuggingFace Papers 2026.06.10
值得看指数 73.0 NO. 018 · 2026.06.10
upvotes94comments1

SWE-Explore 首个量化评估代码代理仓库探索能力的基准,要求代理在限定行数内按相关性排序代码区域。发现主动探索策略显著优于传统检索方法,填补了 SWE-bench 只关注最终修复结果的评估盲区。

给代码代理定探索预算,逼它们学会高效搜代码

当前主流代码代理如 Devin、OpenHands 的架构里,检索模块和修复模块往往是割裂的,SWE-bench 的端到端评分掩盖了'找错代码'这个瓶颈。这个基准把探索过程暴露出来,等于给 agent 设计提供了可优化的中间指标。

论文方法很务实:用 line budget 强制代理做优先级决策,而不是无限制地 dump 上下文给 LLM。这对工程落地很关键——实际部署时代码库动辄百万行,token 成本和延迟都扛不住全量检索。

代码和评估框架已开源,如果你在做 coding agent 的检索策略优化,可以直接接入这个 benchmark 做消融实验,比自己在 SWE-bench 上跑完整修复便宜得多。

查看原文 →