MiniMax 开源稀疏注意力,百万上下文提速落地
推荐指数 81.0 NO. 023 · 2026.06.13
upvotes77comments1
为什么值得看
MiniMax 提出基于 GQA 的分块稀疏注意力 MSA,通过轻量索引分支为每组查询独立筛选 Top-k KV 块,突破 softmax 注意力的二次方瓶颈。对需要处理代码库、长文档记忆和 Agent 工作流的团队,这是可直接替换标准注意力的工程方案。
媒体预览
编辑判断
稀疏注意力不是新方向,但 MSA 的索引分支与 GQA 组级解耦设计值得关注——之前 DeepSpeed 的 Sparse Attention 和 FlashAttention 的变体大多在全局或头级别做稀疏,组级独立选择意味着不同 GQA 组可以捕获不同频率的特征,理论上比统一稀疏模式保留更多信息量。
从工程落地看,MiniMax 强调了"optimized GPU execution",但摘要没给具体加速比和显存节省数字,这是关键缺失。对比 Moonshot 的 MoBA 和月之暗面自己的方案,MSA 的索引开销是否被掩盖在 blockwise 计算里需要实测验证。
如果已开源实现,建议直接拿 LongBench 或 RULER 跑一遍,重点看 128K 以上窗口的 PPL 和下游任务衰减曲线,稀疏注意力的陷阱往往在长程依赖任务上暴露。