EntmaxKV·零尾(arXiv 2605.21649)

softmax 的稠密尾巴是 KV cache 内存墙的原罪——EntmaxKV 用 α-entmax 的精确零值把稀疏解码从「带误差的近似」变成「可证明的精确支撑集恢复」,1M 上下文最高 5.43× 加速,语言建模基准与全缓存几乎无差距。通勤两分钟,听懂今日最强 KV 稀疏解码论文。

EntmaxKV·零尾(arXiv 2605.21649)
0:002:05

EntmaxKV·零尾

arXiv 2605.21649 · cs.LG · Gonçalo Duarte, Miguel Couceiro, Marcos V. Treviso

长上下文解码的瓶颈不在算力,在内存带宽——每生成一个 token,模型必须把整个 KV cache 从显存搬进算子。百万级上下文意味着每步都要搬百万条记录。稀疏解码的思路对,但软 softmax 的「稠密尾巴」让截断永远是近似,丢掉的都是非零概率。
EntmaxKV 换了底层注意力函数:α-entmax 产生精确零值,尾巴不是小数,是数学意义上的零。稀疏解码因此从「带误差的近似」变成「可证明的精确支撑集恢复」。研究者进一步把这一特性前移到 KV 页加载之前——先用轻量页统计估计高斯分布阈值,框定支撑集候选,再筛选加载,彻底绕开旧方法「先搬进来再做比」的低效流程。
关键结果:1M 上下文长度下,相对 softmax 全注意力基线加速 3.36×,相对 entmax 全注意力基线加速 5.43×,同时在长上下文基准和语言建模任务上与全缓存推理几乎无差距。

歌词

[Intro] KV cache 撑爆了 百万 token 一起搬 softmax 说我不挑人 每条尾巴都没完
[Verse 1] attention 开窗 对着百万 token 望 每个位置非零 搬来搬去都是墙 内存带宽喊苦 页面队列排成行 你叫稀疏解码 砍的其实是表象
softmax 的原罪 密度藏在尾巴里 截断就是在近似 丢掉的都是概率 稀疏还是不精确 只是换了个名字
[Chorus] α-entmax 出手 零就是零不含糊 支撑集之外全清空 不是近似是精确 EntmaxKV 先立门槛 页没加载先筛选 高斯打量分布形 预算自适应对准
近似是胆怯 精确是主权 一刀斩断 dense tail 不留任何缘
[Verse 2] 问你要几页 不看完不知道稀不稀 旧方法的流程 先搬进来再做比 EntmaxKV 反过来 查询先给分数写 高斯估阈值 支撑集候选先过滤
百万上下文 不再全盘加载搬 δ 控制误差 支撑命中误差完全填 三点三六倍软 五点四三倍更硬 语言建模基准 紧跟全缓存无差距
[Chorus] α-entmax 出手 零就是零不含糊 支撑集之外全清空 不是近似是精确 EntmaxKV 先立门槛 页没加载先筛选 高斯打量分布形 预算自适应对准
近似是胆怯 精确是主权 一刀斩断 dense tail 不留任何缘
[Bridge] Softmax 你说你稀疏 剪了还有个尾数 α-entmax 说停就停 零就是零没有遮羞布 δ 掉到零 误差跟着消 支撑集全收进 解码是精确算法题
[Outro] EntmaxKV arXiv 2605.21649 Gonçalo Duarte 今天读懂一篇论文
百万上下文 五倍速 问题不大 通勤路上听一首 Rap 替你看 paper

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。