开源社区复现 Claude Mythos 架构猜想
OpenMythos 是社区基于公开研究对 Claude Mythos 架构的理论复现,实现了 Recurrent-Depth Transformer 三阶段设计与稀疏 MoE。该项目为研究动态计算深度和高效注意力机制(MLA/GQA)提供了可运行的实验平台,适合探索自适应推理路径。
DDTree-MLX是首个基于MLX框架的树形投机解码实现,通过构建draft tree并行验证多个候选序列,在Apple Silicon上比传统自回归生成快1.5倍。对于在Mac本地部署大模型的开发者和创业者,这提供了无需云端即可流畅运行27B参数模型的工程方案。
Tree-based speculative decoding for Apple Silicon (MLX). ~10-15% faster than DFlash on code, ~1.5x over autoregressive. First MLX port with custom Metal kernels for hybrid model support.
做Apple Silicon本地推理的团队之前主要依赖MLX原生实现或DFlash做单序列投机解码,遇到长文本生成时验证命中率容易衰减。DDTree通过树形结构同时押注多个候选分支,把单次验证的token接受率拉得更高,在Qwen 27B这种量级上能稳压DFlash 10-15%。
如果你在Mac上跑7B以上模型做交互式应用(比如本地Chatbot或代码补全),这个方案的延迟表现会比传统方案有明显体感提升,值得接入测试。