AI 编码代理的持久化记忆层
Beads 是一个基于 Dolt 的分布式图结构问题追踪器,为 AI 编码代理提供持久化、依赖感知的结构化记忆,替代易丢失上下文的 Markdown 计划文件。对正在构建长周期任务代理的团队来说,这是解决"做着做着就忘了"问题的关键基础设施。
主流代码基准测试 SWE-bench Verified 被前沿模型刷爆,14 个模型得分超 60% 却掩盖了实际修复率仅 7% 的真相。AI 工程师需要警惕:你的模型选型可能正在被过时的 benchmark 误导。
这个基准失效的核心原因是 pass@k 指标被滥用——模型生成 50 个 patch 只要有一个通过就算成功,但实际生产环境只能提交一次。OpenAI 和 Anthropic 内部早就不看这个指标了,他们用的是更严格的 pass@1 加人工审核。
如果你还在用 SWE-bench Verified 分数来对比 Claude、GPT-4o、Gemini 的编程能力,建议直接切到 SWE-bench Lite 或者自己搭一个 pass@1 + 实际编译运行的私有测试集。创业团队尤其要注意:投资人问 coding agent 能力时,拿 Verified 分数讲故事会越来越难取信。