AMAZINGINDEX.COM 每日 AI 简报
52.8
VOL. 2026.06
2026.06.03
← 返回 2026.06.03 日报
日报快照 · Daily Snapshot
NO. 024

自动造题让Agent基准不再饱和

#HF_PAPERS HuggingFace Papers 2026.06.03
值得看指数 65.0 NO. 024 · 2026.06.03
upvotes53comments1
查看原文 →

TASTE方法通过自适应对比n-gram建模和迭代难度优化,自动生成覆盖更广、难度更高的Agent工具使用基准测试。现有基准如τ²-Bench已被刷爆,人工造题成本高且覆盖窄,自动化生成是突破瓶颈的关键路径。

自动造题让Agent基准不再饱和

Agent基准的'自我进化'思路比具体方法更值得注意——它把数据增强的逻辑反过来用:不是让模型适应固定测试集,而是让测试集追着模型能力边界跑。这和动态对抗样本生成有共通之处,但针对工具调用场景做了专门设计。

目前HuggingFace上只放了论文页面,代码和生成数据集尚未开源。如果后续开源,建议重点关注其'n-gram工具序列建模'在真实API组合上的覆盖率,这是之前Tau-Bench等人工设计基准的明显短板。做Agent评测基础设施的团队可以跟踪,但短期内替代现有基准还不现实。