
1/7/2026 · 9:13
Memory 技术日报 2026-07-01:LMCache MUSA、rllm-cache 与 NPM
本期收录 3 条可核验的 memory/context 工程信号:LMCache 扩展到 MUSA KV offload,rllm-cache 把 KV cache 基础件拆成 Rust crate,NPM 把 agent memory 从文本检索推进到 activation steering。读完可判断今天该优先验证异构 KV offload、观察 Rust serving 抽象,还是把技能记忆纳入 agent 路线图。
过去 24 小时,memory 方向没有出现足够多全新的 arXiv 首发论文;本期只收 3 条能核验时间的信号。窗口口径是 2026-06-30 09:00 至 2026-07-01 09:00(北京时间):两条是窗口内发布的工程更新,一条是窗口内的高信号论文讨论,原论文提交时间会单独标明。
速览
| 信号 | 窗口依据 | 直接影响 | 今天怎么跟 |
|---|---|---|---|
| LMCache 支持 Moore Threads MUSA:官方称可把 KV cache 存取到 MUSA paged memory,并覆盖 standard attention 和 MLA attention layouts;同时说明这是 correctness-first 实现,layerwise transfer、CacheBlend、SGLang 等还未支持。1 | 07-01 02:55 | 国产 GPU / 异构 GPU 环境里的 KV offload 试点多了一个入口 | 先看自己的 serving 栈是否真需要 MUSA;不要把这条当成生产性能承诺 |
| rllm-cache 在 crates.io 连发 0.1.0、0.1.1、0.1.2:0.1.2 发布于 06-30 20:38,描述范围包括 KV cache specs、block pool、prefix cache hashing、allocation 和 eviction。2 | 06-30 20:38 | Rust 侧的 LLM serving 组件开始把 prefix cache 与 block 管理拆成独立 crate | 适合扫 API 形态,不适合马上上生产;仓库链接尚未在 crate 元数据里披露 |
| DAIR.AI 把 Neural Procedural Memory 重新推到 agent memory 讨论里:NPM 把历史经验蒸馏成 activation steering vectors,而不是再写一段文本记忆塞进上下文。3 原论文提交于 06-29 14:05,窗口外,但论文摘要给出 4 个 agent benchmark 的评估,并称隐式 steering 与显式 workflow 组合有互补收益。4 | 07-01 06:02(讨论) | agent memory 的路线从「检索文本」扩到「激活空间里的技能记忆」 | 如果你在做工具型 agent,先把它当成研究方向;别急着替换现有 RAG memory |
逐条解读
1. LMCache + MUSA:KV offload 走向更多硬件后端
LMCache Lab 的窗口内公告把重点放在 Moore Threads GPU 和 MUSA。MUSA 可以理解为摩尔线程 GPU 的计算平台,角色类似 NVIDIA 生态里的 CUDA;这次更新让 LMCache 可以在 MUSA paged memory 中存取 KV cache,并覆盖 standard attention 和 MLA attention layouts。1
这条对线上系统的意义不在「立刻变快」,而在硬件覆盖面。过去几期我们一直看到 KV offload、prefix cache routing、P/D 分离在 NVIDIA/AMD/Ascend 等栈里推进;MUSA 进入 LMCache 的支持列表,说明 KV cache 已经从单一框架优化,变成异构硬件适配问题。只要长上下文和多轮 agent 负载继续把显存吃满,KV 的存放位置、迁移格式和注意力布局都会成为部署决策的一部分。
但公告自己也把边界写得很清楚:这是 correctness-first 实现,layerwise transfer、CacheBlend、SGLang 等能力还未支持。1 对工程团队来说,今天更合适的动作是建一个最小验证:同一批 prompt、同一模型、同一上下文长度,在 vLLM + MUSA + LMCache 上核对 correctness、TTFT 和 decode 稳定性。性能结论先别下太早。
2. rllm-cache:Rust serving 生态开始补 KV cache 基础件
crates.io 记录显示,rllm-cache 在 06-30 18:59 发布 0.1.0,随后在 19:14 和 20:38 连续发到 0.1.2;0.1.2 的描述是「KV cache specs, block pool, prefix cache hashing, allocation, and eviction for rLLM」。2
这类小 crate 看起来不如论文醒目,但它指向一个很具体的工程缝隙:LLM serving 的 KV cache 管理正在模块化。block pool 负责把显存或缓存空间切成可管理的块;prefix cache hashing 负责判断不同请求是否能复用前缀;allocation 和 eviction 决定缓存满了之后保谁、丢谁。这些能力如果都散在单个 serving 框架内部,后续很难被别的 scheduler、router 或实验性 runtime 复用。
要注意,crate 元数据里目前没有 repository 字段,下载量也还很小。2 所以它更像「Rust 生态里出现了 KV cache 抽象的早期信号」,不是一个已经可放心接入的组件。可以做的跟进是读 API 设计:它如何定义 block、prefix hash 和 eviction hook,比立刻跑 benchmark 更有价值。
3. Neural Procedural Memory:memory 不一定是上下文里的另一段文字
DAIR.AI 在窗口内转发 Neural Procedural Memory 时抓住了一个关键句:memory does not always have to be another paragraph in the context window。3 这句话正好打在 agent memory 的老问题上:把过往经验检索成文本,能告诉模型「应该怎么做」,但未必能激活模型内部执行这个技能需要的表征。
NPM 的做法是 training-free:从历史 contrastive experiences 中蒸馏 procedural skills,把它们表示成 activation space 里的 steering vectors。论文摘要说,NPM 在 4 个 agent benchmark 上能达到接近显式文本指令 baseline 的表现;当隐式 steering 和显式 workflows 组合时,任务执行更稳。4
这还不是一个可以直接替换企业 memory store 的方案。它更像提醒:agent memory 至少有两层,一层是可审计、可检索、可删除的外部事实记忆;另一层是「做事方式」或 procedural know-how。前者适合进数据库和 RAG,后者可能需要进 activation steering、adapter 或策略蒸馏。做生产系统时,别把这两层混成一个向量库问题。
工程判断
今天的共同线索很窄:KV cache 继续向硬件 / runtime 基础设施下沉,agent memory 则开始从文本检索外扩到隐式技能表示。如果团队现在只做普通 RAG,rllm-cache 和 LMCache MUSA 可能暂时只是 watchlist;如果你已经在长上下文 serving、国产 GPU 适配或多轮 agent 上踩显存和延迟,今天可以做三个小动作:
- 把 KV cache 相关实验拆成「正确性」「TTFT」「decode 吞吐」「cache 命中率」四张表,不要用一个端到端 latency 数字盖过去。
- 对新出现的 cache 组件先读抽象边界:block、prefix hash、eviction、layout transfer 哪些是公共接口,哪些还绑死在某个 runtime。
- 对 agent memory 方案分清「事实记忆」和「技能记忆」。事实记忆要可追溯、可删除;技能记忆要证明它真的改善执行,而不是把 prompt 写得更长。
本期没有把 Mandol、DuoMem、HMA-Serve 等 06-29 提交论文列入主表,因为它们的原始提交时间早于本轮 24 小时窗口。它们仍然值得后续观察,尤其是 long-term conversation memory、on-device memory agents 和异构加速器上的 KV transfer。

Añade más opiniones o contexto en torno a este contenido.