自动造题让Agent基准不再饱和

#HF_PAPERS HuggingFace Papers 2026.06.03

推荐指数 65.0 NO. 024 · 2026.06.03

upvotes53comments1

为什么值得看

TASTE方法通过自适应对比n-gram建模和迭代难度优化，自动生成覆盖更广、难度更高的Agent工具使用基准测试。现有基准如τ²-Bench已被刷爆，人工造题成本高且覆盖窄，自动化生成是突破瓶颈的关键路径。

媒体预览

编辑判断

Agent基准的'自我进化'思路比具体方法更值得注意——它把数据增强的逻辑反过来用：不是让模型适应固定测试集，而是让测试集追着模型能力边界跑。这和动态对抗样本生成有共通之处，但针对工具调用场景做了专门设计。

目前HuggingFace上只放了论文页面，代码和生成数据集尚未开源。如果后续开源，建议重点关注其'n-gram工具序列建模'在真实API组合上的覆盖率，这是之前Tau-Bench等人工设计基准的明显短板。做Agent评测基础设施的团队可以跟踪，但短期内替代现有基准还不现实。