AMAZINGINDEX.COM 每日 AI 简报
52.9
VOL. 2026.06
2026.06.13
← 返回 2026.06.13 日报
日报快照 · Daily Snapshot
NO. 023

MiniMax 开源稀疏注意力,百万上下文提速落地

#HF_PAPERS HuggingFace Papers 2026.06.13
推荐指数 81.0 NO. 023 · 2026.06.13
upvotes77comments1

MiniMax 提出基于 GQA 的分块稀疏注意力 MSA,通过轻量索引分支为每组查询独立筛选 Top-k KV 块,突破 softmax 注意力的二次方瓶颈。对需要处理代码库、长文档记忆和 Agent 工作流的团队,这是可直接替换标准注意力的工程方案。

MiniMax 开源稀疏注意力,百万上下文提速落地

稀疏注意力不是新方向,但 MSA 的索引分支与 GQA 组级解耦设计值得关注——之前 DeepSpeed 的 Sparse Attention 和 FlashAttention 的变体大多在全局或头级别做稀疏,组级独立选择意味着不同 GQA 组可以捕获不同频率的特征,理论上比统一稀疏模式保留更多信息量。

从工程落地看,MiniMax 强调了"optimized GPU execution",但摘要没给具体加速比和显存节省数字,这是关键缺失。对比 Moonshot 的 MoBA 和月之暗面自己的方案,MSA 的索引开销是否被掩盖在 blockwise 计算里需要实测验证。

如果已开源实现,建议直接拿 LongBench 或 RULER 跑一遍,重点看 128K 以上窗口的 PPL 和下游任务衰减曲线,稀疏注意力的陷阱往往在长程依赖任务上暴露。

查看原文 →