用AI互怼自动生成DPO训练数据

#REPO GitHub Search 2026.04.13

推荐指数 72.0 NO. 003 · 2026.04.13

Stars104创建2 天前Forks0Issues0

为什么值得看

EcoAlign-Forge通过多智能体辩论自动生成DPO偏好对，替代昂贵的人工标注流程。可将内容审核模型的数据准备周期从数周缩短至小时级，且无需API费用。

Multi-Agent DPO Data Synthesis Factory — 多智能体偏好训练数据自动合成框架 | 红队攻击 → 多persona审核 → 终审裁决 → DPO偏好对

编辑判断

做LLM安全对齐的团队通常依赖Scale AI或内部标注团队生成DPO数据，成本高且策略调整滞后。这个项目用红队vs蓝队的对抗机制让模型自我生成偏好对，比单纯用GPT-4蒸馏更具可解释性，你能看到AI为什么认为某个内容应该被拦截。

不过要注意，自举式数据生成存在偏见放大风险，建议与人工抽检结合使用。特别适合需要频繁迭代安全策略的垂直场景，比如社交媒体审核或金融合规检测。

Star History