Cohere 收购 Reliant AI 加码主权 AI
Cohere 收购专注主权 AI 的 Reliant AI,强化企业级本地化部署能力。对受数据合规约束的金融、医疗、政府机构客户有直接价值,也标志着基础模型厂商向垂直主权解决方案延伸的趋势。
QuantumFlow 是一个分布式大模型推理调度平台,支持 Gang/Pack 多策略自动调度、多后端统一接口和 GPU 显存精细管理。对苦于 vLLM 集群利用率低、手动扩缩容繁琐的工程师,它提供了开箱即用的生产级调度替代方案。
QuantumFlow - Distributed LLM inference scheduling framework with multi-backend support (vLLM, TGI, SGLang), adaptive scheduling strategies, and cluster management.
当前大模型推理部署的主流选择是 vLLM + 自研脚本或直接使用 TGI/SGLang,但集群级调度、自动扩缩容和异构后端管理一直是痛点,多数团队用 K8s + 自定义 Operator 硬凑,维护成本极高。QuantumFlow 的差异化在于把 K8s Pod 调度语义直接搬到推理层,Gang 调度保障多卡大模型原子性部署,Pack 调度提升小模型混部密度,这比单纯用 vLLM 的 Ray 集群更贴近生产需求。
不过目前 stars 仅 105、forks 为 0,说明尚未经过社区验证,且昇腾 NPU 适配、多租户等企业特性仍在规划中。如果你已经在用 vLLM 且集群规模超过 8 卡,可以把它和 BentoML、SkyPilot 一起做 PoC 对比;若是早期小团队,建议等社区活跃度上来再跟进,避免踩坑未验证的调度逻辑。
LLM推理集群的Kubernetes式调度编排层,填补多后端统一调度空白
独特价值:唯一开源实现vLLM/TGI/SGLang多后端统一调度与显存感知自动扩缩容