电脑操控Agent终于有了真实长程基准
推荐指数 69.0 NO. 022 · 2026.06.14
upvotes94comments2
为什么值得看
WeaveBench 是首个针对混合界面(GUI+API)的计算机使用Agent长程基准测试,任务平均需 40+ 步完成且涉及真实软件。现有 Agent 在此基准上成功率不足 15%,暴露了当前模型在复杂多步骤任务中的根本短板。
媒体预览
编辑判断
之前测 Agent 要么用 OSWorld 这类纯 GUI 环境,要么用 API-only 的 SWE-bench,真实工作流其实是两者混着用的——比如先打开 Excel 看数据,再调 Python API 做分析。WeaveBench 第一次把这种混合模式量化成可测的 benchmark。
当前 SOTA 模型在这个基准上表现惨淡,说明「看懂界面」和「长期规划」这两个能力的 gap 比想象中大。做 Agent 框架的团队(比如 Anthropic 的 Computer Use、OpenAI 的 Operator)可以拿这个直接测自己的管线,不用自己造 eval 了。
论文代码和数据集已开源,HF 上 94 upvotes 说明社区关注度很高。建议做 RPA 替代、AI 办公助手方向的团队优先跟进,这可能是下半年 Agent 产品能力分化的关键指标。