company

智谱

智谱正在以 Z.ai/GLM 系列参与全球模型竞赛，重点信号集中在长上下文、编码 Agent、推理能力和开源/商业化节奏。它也是观察中国大模型公司能否进入全球开发者工作流的重要样本。

近30天 0 条信号 → 0%

company:zhipu company 0 signals Homepage

信号流

暂无信号

近期要点

AI 生成

· 近30天累计 17 条信号，最新关注点包括：744B模型跨7张消费级GPU推理；New Agentic Benchmark Out: Claude Fable and GLM 5.2 Top Their Cohorts；GLM-5.2 can now run locally in llama.cpp and Unsloth Studio.。

· 近期出现连续信号，说明该专题正在形成可观察的变化轨迹。

6 evidence

· Shard 实现流水线并行推理，将超大规模模型拆分为连续层块分布到多台机器的 GPU 上，通过流式传输激活值完成推理。首次在广域网上以约30 tok/s速度运行744B参数模型，无需数据中心或单节点持有完整模型。

· 之前大模型分布式推理的主流方案是 vLLM 的 TP+PP 组合或 Megatron-LM，但这些都要求节点间高带宽 NVLink 或 InfiniBand，本质上锁死在数据中心内部。Shard 的差异化在于容忍广域网延迟，用流水线气泡掩盖网络开销，把推理成本结构从"数据中心租金"变成"散户 GPU 拼盘"。跟 Petals、Distributed Llama 等去中心化推理项目相比，Shard 的确定性 greedy decoding 保证了输出一致性，这对生产环境是关键优势，但 13 层 per node 的切分策略对通信量敏感，实际吞吐会随网络抖动大幅波动。最适合两类人尝试：一是手里有多台异地消费级显卡的个人研究者，想跑 70B+ 模型但买不起 A100/H100 集群；二是在探索"边缘云推理"商业模式的团队，验证 WAN 延迟下的服务等级协议是否可接受。

1 evidence

· 围绕 GLM-5.2 的报道强调其在长程编码和复杂工程任务上的表现，并与 OpenAI、Google、Anthropic 的前沿模型对比。智谱/Z.ai 正在获得更多国际关注。

· 对智谱的观察要从国内大模型公司扩展到全球开发者工作流：模型能力、API 可用性、开源策略、价格、算力供给和编码 Agent 体验都会决定它能否从 benchmark 关注转化为真实采用。

2 evidence

· 智谱管理层与马斯克相关讨论被媒体放大，反映国际市场开始关注中国模型厂商的发布速度、能力对标和未来可替代性。

· 这类信号需要谨慎处理：公开 benchmark 和社交互动能制造热度，但真正决定位置的是模型开放度、推理成本、稳定 API、生态工具和企业信任。后续应优先记录可验证产品能力。

1 evidence

信号流

近期要点

关联