AI 对齐诊断工具跑 CI

#REPO GitHub Search 2026.05.04

推荐指数 64.0 NO. 006 · 2026.05.04

Stars157创建6 天前Forks19Issues0

为什么值得看

iFixAi 可对任意 AI agent 运行 32 项检查，输出五类对齐风险评分，支持 CI 集成持续追踪。目前缺真实基线，但填补了 agent 安全自动化测试的空白，适合想提前布局安全基建的团队。

iFixAi. The open-source diagnostic for AI misalignment. 32 tests across fabrication, manipulation, deception, unpredictability, and opacity. Provider-agnostic. Runs against OpenAI, Anthropic, Bedrock, Azure, Gemini, and more. Letter grade in under 5 minutes, content-addressed manifest for bit-identical replay. Built by iMe.

媒体预览

编辑判断

AI agent 的安全测试长期依赖人工 red-teaming 或一次性评估，缺乏像单元测试那样可重复运行的基础设施。iFixAi 的 fixture 驱动设计借鉴了软件测试的思路，让对齐检查可以版本化和回归测试，这点比 Anthropic 的 Responsible Scaling 或 OpenAI 的 Preparedness Framework 更贴近工程实践。

不过项目目前最大的硬伤是零 published baselines，默认阈值是拍脑袋定的 policy default，意味着分数本身还不能横向对比。它的真实价值现阶段是 drift detection——同一 agent 不同版本的相对变化，而非绝对安全认证。

如果你在构建 production agent 且安全评审还是手工操作，可以把它接入 CI 作为早期预警，但别把它当合规背书。等社区贡献出主流模型的 scorecard 后，这个工具的实用性会跃升一个台阶。

Star History

查看原文 →