让Agent学会'反思'的强化学习新范式

#HF_PAPERS HuggingFace Papers 2026.06.16

推荐指数 78.0 NO. 021 · 2026.06.16

upvotes62comments2

为什么值得看

APPO提出了一种新的Agent强化学习方法，通过细粒度决策点和过程级优势缩放来优化多轮工具调用中的分支决策和信用分配。现有方法大多在工具调用边界等粗粒度单元上分配信用，导致Agent难以学会在错误步骤后'回头'，而APPO让Agent能在更细的粒度上判断哪一步走错了。

媒体预览

编辑判断

当前Agent框架如ReAct、Reflexion的痛点是'一错到底'——工具调用链一旦某步出错，后续步骤即使正确也会被惩罚，但模型不知道错在哪。APPO把信用分配从'整个工具调用'细化到'决策点级别'，相当于给Agent装了'断点调试'能力。

实验是在自有benchmark上做的，尚未看到与OpenAI的ToolRL或Anthropic的 Constitutional RL 的直接对比，这是主要悬念。代码和训练脚本未明确提及开源，如果复现成本低于8卡A100，对做垂直Agent的中小团队会很有吸引力。