MiniMax 开源稀疏注意力，百万上下文提速落地

#HF_PAPERS HuggingFace Papers 2026.06.13

推荐指数 81.0 NO. 023 · 2026.06.13

upvotes77comments1

为什么值得看

MiniMax 提出基于 GQA 的分块稀疏注意力 MSA，通过轻量索引分支为每组查询独立筛选 Top-k KV 块，突破 softmax 注意力的二次方瓶颈。对需要处理代码库、长文档记忆和 Agent 工作流的团队，这是可直接替换标准注意力的工程方案。

媒体预览

编辑判断

稀疏注意力不是新方向，但 MSA 的索引分支与 GQA 组级解耦设计值得关注——之前 DeepSpeed 的 Sparse Attention 和 FlashAttention 的变体大多在全局或头级别做稀疏，组级独立选择意味着不同 GQA 组可以捕获不同频率的特征，理论上比统一稀疏模式保留更多信息量。

从工程落地看，MiniMax 强调了"optimized GPU execution"，但摘要没给具体加速比和显存节省数字，这是关键缺失。对比 Moonshot 的 MoBA 和月之暗面自己的方案，MSA 的索引开销是否被掩盖在 blockwise 计算里需要实测验证。

如果已开源实现，建议直接拿 LongBench 或 RULER 跑一遍，重点看 128K 以上窗口的 PPL 和下游任务衰减曲线，稀疏注意力的陷阱往往在长程依赖任务上暴露。

查看原文 →