类 K8s 调度让千亿模型单卡 99% 利用率

#REPO GitHub Search 2026.05.20

推荐指数 80.0 NO. 003 · 2026.05.20

Stars105创建3 天前Forks0Issues0

为什么值得看

QuantumFlow 是一个分布式大模型推理调度平台，支持 Gang/Pack 多策略自动调度、多后端统一接口和 GPU 显存精细管理。对苦于 vLLM 集群利用率低、手动扩缩容繁琐的工程师，它提供了开箱即用的生产级调度替代方案。

QuantumFlow - Distributed LLM inference scheduling framework with multi-backend support (vLLM, TGI, SGLang), adaptive scheduling strategies, and cluster management.

媒体预览

编辑判断

当前大模型推理部署的主流选择是 vLLM + 自研脚本或直接使用 TGI/SGLang，但集群级调度、自动扩缩容和异构后端管理一直是痛点，多数团队用 K8s + 自定义 Operator 硬凑，维护成本极高。QuantumFlow 的差异化在于把 K8s Pod 调度语义直接搬到推理层，Gang 调度保障多卡大模型原子性部署，Pack 调度提升小模型混部密度，这比单纯用 vLLM 的 Ray 集群更贴近生产需求。

不过目前 stars 仅 105、forks 为 0，说明尚未经过社区验证，且昇腾 NPU 适配、多租户等企业特性仍在规划中。如果你已经在用 vLLM 且集群规模超过 8 卡，可以把它和 BentoML、SkyPilot 一起做 PoC 对比；若是早期小团队，建议等社区活跃度上来再跟进，避免踩坑未验证的调度逻辑。

Star History

生态分析

Beta

LLM推理集群的Kubernetes式调度编排层，填补多后端统一调度空白

独特价值：唯一开源实现vLLM/TGI/SGLang多后端统一调度与显存感知自动扩缩容

竞品：

vllm-project/vllm ★ 25.0k 底层推理引擎，QuantumFlow在其之上做集群调度层

huggingface/text-generation-inference ★ 9.0k 单服务推理框架，缺分布式调度与多后端统一能力

sgl-project/sglang ★ 4.0k 新兴推理运行时，QuantumFlow将其纳入调度后端

kubernetes-sigs/kueue ★ 1.5k 通用K8s队列调度，无LLM显存感知与推理优化

NVIDIA/TensorRT-LLM ★ 8.0k 闭源优化推理引擎，无开源集群调度生态

查看原文 →