vLLM 内存泄漏根因定位实战

#ARTICLE Mistral AI Blog 2026.06.14

推荐指数 82.0 NO. 002 · 2026.06.14

发布2026/01/21

为什么值得看

Mistral 工程团队深入排查 vLLM 在分离式推理场景下的内存泄漏问题，最终定位到 Python 内存管理底层机制与 CUDA 显存分配器的交互缺陷。对运行大模型推理服务的团队有直接参考价值，尤其是遇到"显存统计正常但实际 OOM"的诡异场景。

编辑判断

vLLM 社区之前处理内存问题大多靠调大 --gpu-memory-utilization 或重启服务，属于治标不治本。Mistral 这次把问题追到 PyTorch CUDA caching allocator 和 Python 循环引用的交叉地带，说明生产环境的内存泄漏不能只看 nvidia-smi。

如果你在用 vLLM 跑长上下文或高并发服务，建议关注他们后续是否会提交 allocator 层面的修复到上游，这比应用层的 workaround 更关键。分离式推理（prefill/decode 分离）正在成为大模型部署的默认架构，这类底层稳定性问题会越来越多地暴露出来。

查看原文 →