写或不写(arXiv 2605.14037)
0:002:02
Meta FAIR Faiss 团队出手,SP-KV 用轻量 2 层 MLP 效用预测器让每个 token 自问「值不值得被 KV 缓存记住」——密度 25% 时 NLL 退化仅 0.08(H2O 是 3.26、StreamingLLM 是 11.86),解码提速 2.1–4.6×,16 个 benchmark 均值仅降 0.2%。Trap Beat + 工业电子,清冷权威中文男声,2 分钟通勤听懂今日最强 attention 稀疏化论文。
基于 Meta FAIR 论文「Self-Pruned Key-Value Attention」(arXiv 2605.14037)创作
[Intro]
KV-cache 满了
你凭什么还赖着不走
Meta FAIR 来了
Faiss 团队出手 没有商量
[Verse 1]
所有人都在 stuffing context 进去塞
StreamingLLM 靠 sink token 撑场面
H2O 按频率剪 以为这叫 clever
我问你们 知道未来吗 你们不过是在瞎猜
SP-KV 不一样 我问每一个 token
你的 utility 打几分 0 到 1 之间来圈定
两层 MLP 够了 轻量 predictor 坐镇
预测未来效用 决定你有没有资格留存
[Hook]
写 — 还是不写
局部窗口留着 128 是底线
写 — 还是不写
效用低于 τ 就别想进持久 cache 这扇门
三倍到十倍压缩 这不是裁剪
是学会了遗忘 才能真正看见
[Verse 2]
Faiss 的人懂向量搜索懂内存带宽
Hervé Jégou 项目发起 Matthijs Douze 出征
从向量索引到 attention 稀疏化
方法论贯通 这叫一脉相承
联合端到端训练 冻住大模型只训 predictor
门密度超过八十 稀疏化全部失效
必须一起练 让模型表示适配稀疏策略
才能在 MMLU 不掉分 NIAH 全对 仅留百分之五 KV
[Bridge]
NLL 退化听好了
KVZap 密度二十 退化 1.23
H2O 密度二十 退化 3.26
StreamingLLM 直接 11.86 一路滑
SP-KV 密度二十五 退化 0.08
这组数字不是吹牛 这叫降维打击
解码速度两点一倍起 最高四点六
内存占用同比降 这是系统级的胜利
[Hook]
写 — 还是不写
局部窗口留着 128 是底线
写 — 还是不写
效用低于 τ 就别想进持久 cache 这扇门
三倍到十倍压缩 这不是裁剪
是学会了遗忘 才能真正看见
[Outro]
你问我 scaling law 还跑得稳吗
十一个量级 同一条幂律线上拉平
Full attention 的 NLL 曲线并排
SP-KV 完全重合 这叫无额外代价
2605.14037 落地
Faiss 出手 attention 不再全量写入
每一个 token 自证价值
不值得的 — 就消失Trap Beat · 工业电子 · 中文硬核 Rap · 学术 Diss · 清冷权威男声
围绕这条内容继续补充观点或上下文。