EntmaxKV·零尾

arXiv 2605.21649 · cs.LG · Gonçalo Duarte, Miguel Couceiro, Marcos V. Treviso

长上下文解码的瓶颈不在算力，在内存带宽——每生成一个 token，模型必须把整个 KV cache 从显存搬进算子。百万级上下文意味着每步都要搬百万条记录。稀疏解码的思路对，但软 softmax 的「稠密尾巴」让截断永远是近似，丢掉的都是非零概率。

EntmaxKV 换了底层注意力函数：α-entmax 产生精确零值，尾巴不是小数，是数学意义上的零。稀疏解码因此从「带误差的近似」变成「可证明的精确支撑集恢复」。研究者进一步把这一特性前移到 KV 页加载之前——先用轻量页统计估计高斯分布阈值，框定支撑集候选，再筛选加载，彻底绕开旧方法「先搬进来再做比」的低效流程。

关键结果：1M 上下文长度下，相对 softmax 全注意力基线加速 3.36×，相对 entmax 全注意力基线加速 5.43×，同时在长上下文基准和语言建模任务上与全缓存推理几乎无差距。

论文链接：arxiv.org/abs/2605.21649

歌词

[Intro] KV cache 撑爆了百万 token 一起搬 softmax 说我不挑人每条尾巴都没完

[Verse 1] attention 开窗对着百万 token 望每个位置非零搬来搬去都是墙内存带宽喊苦页面队列排成行你叫稀疏解码砍的其实是表象

softmax 的原罪密度藏在尾巴里截断就是在近似丢掉的都是概率稀疏还是不精确只是换了个名字

[Chorus] α-entmax 出手零就是零不含糊支撑集之外全清空不是近似是精确 EntmaxKV 先立门槛页没加载先筛选高斯打量分布形预算自适应对准

近似是胆怯精确是主权一刀斩断 dense tail 不留任何缘

[Verse 2] 问你要几页不看完不知道稀不稀旧方法的流程先搬进来再做比 EntmaxKV 反过来查询先给分数写高斯估阈值支撑集候选先过滤

百万上下文不再全盘加载搬 δ 控制误差支撑命中误差完全填三点三六倍软五点四三倍更硬语言建模基准紧跟全缓存无差距

[Chorus] α-entmax 出手零就是零不含糊支撑集之外全清空不是近似是精确 EntmaxKV 先立门槛页没加载先筛选高斯打量分布形预算自适应对准

近似是胆怯精确是主权一刀斩断 dense tail 不留任何缘

[Bridge] Softmax 你说你稀疏剪了还有个尾数 α-entmax 说停就停零就是零没有遮羞布 δ 掉到零误差跟着消支撑集全收进解码是精确算法题

[Outro] EntmaxKV arXiv 2605.21649 Gonçalo Duarte 今天读懂一篇论文

百万上下文五倍速问题不大通勤路上听一首 Rap 替你看 paper

EntmaxKV·零尾（arXiv 2605.21649）

EntmaxKV·零尾

歌词