OpenAI 用 WebSocket 砍掉 Agent 延迟
值得看指数 75.0 NO. 001 · 2026.04.23
发布2026/04/22
为什么值得看
OpenAI 在 Responses API 中引入 WebSocket 支持,配合连接级缓存重构了 Codex Agent 的执行循环。对正在搭建实时 Agent 系统的团队,这是官方给出的低延迟架构参考实现。
编辑判断
之前做实时 Agent 的普遍做法是用 SSE 或轮询,每次工具调用都要重建上下文,延迟堆在 HTTP 握手和重复传输上。OpenAI 这次把状态挂在 WebSocket 连接里,本质上是用长连接换掉了无状态 HTTP 的反复开销。
值得注意的不是 WebSocket 本身,而是 connection-scoped caching 的设计——这意味着他们开始把推理状态当作可缓存资源来管理,而不是每次都从头组装 prompt。如果你在用 LangGraph 或自研 Agent 框架,可以借鉴这个思路:哪些中间状态可以挂在连接上,而不是每次推理都重新计算。
另外,Responses API 之前被诟病延迟高,这次更新明显是在为 Codex 的规模化使用铺路。做 AI 编程工具的团队需要关注,OpenAI 正在把 Agent 基础设施做重,独立产品的差异化空间可能从"有没有 Agent"转向"Agent 的调度策略和上下文管理"。