用重复验证提升代码生成准确率

#REPO GitHub Search 2026.04.15

推荐指数 74.0 NO. 002 · 2026.04.15

Stars107创建5 天前Forks5Issues0

为什么值得看

这是一个通过细粒度评分和重复验证机制为LLM输出提供反馈的通用验证框架，在SWE-Bench和Terminal-Bench上达到SOTA性能。对于构建AI编程助手或复杂Agent的开发者，该框架可作为高质量轨迹奖励模型，替代传统二元评判机制以提升测试时扩展效果。

编辑判断

做Test-time Scaling的团队之前大多用二元奖励模型或人工规则做验证，反馈粒度太粗导致扩展效率受限。这个框架通过细粒度评分+重复验证机制，把SWE-Bench准确率推到了77.8%，能更精准地定位轨迹中的关键错误节点。

如果你在构建AI编程助手或复杂Agent系统，正在寻找比传统ORM/PRM更精细的验证方案，建议重点研究他们的criteria decomposition实现。特别是做trajectory reward modeling的工程师，这个方法可能比单纯增加采样数量更具性价比。

Star History