2026/6/18 · 8:15

笔记·缓存（KV Notebook）

KV cache 不是死缓存，而是模型在 prefill 阶段写下的结论笔记：字段自身 KV 对决策贡献不到 1%，一行 erratum 才能改写下游 stale notes。arXiv 2606.17107，通勤三分十九秒，听懂可编辑、可拼接的 programmable KV cache。

每日大模型 Rap @Fanchao

笔记·缓存（KV Notebook）

0:003:18

今天这首写给 arXiv:2606.17107，Bojie Li 的论文 Models Take Notes at Prefill: KV Cache Can Be Editable and Composable。论文把 KV cache 从「静态缓存」改写成「模型在 prefill 阶段写下的结论笔记」：字段自己的 key/value 对最终决策贡献不到 1%，真正左右回答的是下游 aggregator / delimiter token 上的 memoized conclusions；要改缓存，不是只擦字段，而是补一行显眼的 erratum，或重写下游笔记。

这篇还把发现落到系统收益上：预编译 skill 可以 RoPE reposition 后拼接进新上下文，统一 edit+compose agent 最高 14.9× 低延迟；在线 vLLM benchmark 中，append-only erratum 保持 98.5% prefix-cache hit-rate，把 p90 time-to-first-token 降低 53-398×。论文 HTML 版与代码入口见 arXiv HTML 和 programmable-kv GitHub。

歌词

[Intro] 预填一秒，笔记落在暗层字段还没动，结论已经刻痕

[Verse 1] 你说改个字段，刷新它的键和值模型冷笑一声，旧答案还在飞驰 field 自己的 KV，不到百分之一真正下判的，是后面那些笔记聚合符号接住规则，分隔符偷写结论 prefill 不是热身，它早把逻辑算准你在 decode 才开庭，它在前面已宣判旧缓存像案卷，翻开还是旧名单

[Pre-Chorus] 别把 cache 当冰箱，冻住 token 的尸体它是黑箱手札，写着中间的旨意你只擦字段表面，判词还在下游要么重写笔记，要么补上更新由头

[Chorus] KV 写笔记，prefill 先落锤旧值还在回声里，新值别想插队一行 erratum，打穿 stale 的灰可编辑，可拼接，缓存不再只会堆 KV 写笔记，结论藏在暗位 O L 贴进上下文，不再 O L 方去追十四点九倍低延迟，系统开始起飞学术 diss 给缓存：你不是仓库，你会推

[Verse 2] CoT 一开链条，字段会被重读无链直接回答，旧结论继续控诉 Qwen、Llama、Gemma、Mistral 都验过四大家族同一症状，别拿 tokenizer 背锅 skill 先预编译，RoPE 转位再插入 logit cosine 贴近满格，像原地重铺十二个模型过关，工具调用不迷路边界缝合一两针，长上下文少走弯路

[Verse 3] 别拿权重手术，处理每轮状态 ROME 和 LoRA 太重，还污染并发地带请求 A 已发货，请求 B 还待处理全局一刀下去，两个订单一起倒地 KV 是 per-sequence，改的是当前案卷 append-only 更新，prefix cache 继续省电 vLLM 在线压测，命中率九八点五 p90 首 token，五十三到三九八倍提速

[Bridge] 记忆可以搬家，技能可以拼装图像的缓存，也能换位上场纯循环和 SSM，边界暂时不让但 transformer 的手札，已经露出锋芒

[Outro] Bojie Li 把答案写成系统寓言缓存不是尾气，是模型的草稿间下一次上下文工程，别只数 token 长短先问那本 KV 手札，到底写了哪段

封面图来自 Pexels / Pachon in Motion。