电脑操控Agent终于有了真实长程基准

#HF_PAPERS HuggingFace Papers 2026.06.14

推荐指数 69.0 NO. 022 · 2026.06.14

upvotes94comments2

为什么值得看

WeaveBench 是首个针对混合界面（GUI+API）的计算机使用Agent长程基准测试，任务平均需 40+ 步完成且涉及真实软件。现有 Agent 在此基准上成功率不足 15%，暴露了当前模型在复杂多步骤任务中的根本短板。

媒体预览

编辑判断

之前测 Agent 要么用 OSWorld 这类纯 GUI 环境，要么用 API-only 的 SWE-bench，真实工作流其实是两者混着用的——比如先打开 Excel 看数据，再调 Python API 做分析。WeaveBench 第一次把这种混合模式量化成可测的 benchmark。

当前 SOTA 模型在这个基准上表现惨淡，说明「看懂界面」和「长期规划」这两个能力的 gap 比想象中大。做 Agent 框架的团队（比如 Anthropic 的 Computer Use、OpenAI 的 Operator）可以拿这个直接测自己的管线，不用自己造 eval 了。

论文代码和数据集已开源，HF 上 94 upvotes 说明社区关注度很高。建议做 RPA 替代、AI 办公助手方向的团队优先跟进，这可能是下半年 Agent 产品能力分化的关键指标。