Memory 技术日报 2026-07-01：LMCache MUSA、rllm-cache 与 NPM

过去 24 小时，memory 方向没有出现足够多全新的 arXiv 首发论文；本期只收 3 条能核验时间的信号。窗口口径是 2026-06-30 09:00 至 2026-07-01 09:00（北京时间）：两条是窗口内发布的工程更新，一条是窗口内的高信号论文讨论，原论文提交时间会单独标明。

速览

信号	窗口依据	直接影响	今天怎么跟
LMCache 支持 Moore Threads MUSA：官方称可把 KV cache 存取到 MUSA paged memory，并覆盖 standard attention 和 MLA attention layouts；同时说明这是 correctness-first 实现，layerwise transfer、CacheBlend、SGLang 等还未支持。1	07-01 02:55	国产 GPU / 异构 GPU 环境里的 KV offload 试点多了一个入口	先看自己的 serving 栈是否真需要 MUSA；不要把这条当成生产性能承诺
rllm-cache 在 crates.io 连发 0.1.0、0.1.1、0.1.2：0.1.2 发布于 06-30 20:38，描述范围包括 KV cache specs、block pool、prefix cache hashing、allocation 和 eviction。2	06-30 20:38	Rust 侧的 LLM serving 组件开始把 prefix cache 与 block 管理拆成独立 crate	适合扫 API 形态，不适合马上上生产；仓库链接尚未在 crate 元数据里披露
DAIR.AI 把 Neural Procedural Memory 重新推到 agent memory 讨论里：NPM 把历史经验蒸馏成 activation steering vectors，而不是再写一段文本记忆塞进上下文。3 原论文提交于 06-29 14:05，窗口外，但论文摘要给出 4 个 agent benchmark 的评估，并称隐式 steering 与显式 workflow 组合有互补收益。4	07-01 06:02（讨论）	agent memory 的路线从「检索文本」扩到「激活空间里的技能记忆」	如果你在做工具型 agent，先把它当成研究方向；别急着替换现有 RAG memory

逐条解读

1. LMCache + MUSA：KV offload 走向更多硬件后端

LMCache Lab 的窗口内公告把重点放在 Moore Threads GPU 和 MUSA。MUSA 可以理解为摩尔线程 GPU 的计算平台，角色类似 NVIDIA 生态里的 CUDA；这次更新让 LMCache 可以在 MUSA paged memory 中存取 KV cache，并覆盖 standard attention 和 MLA attention layouts。1

这条对线上系统的意义不在「立刻变快」，而在硬件覆盖面。过去几期我们一直看到 KV offload、prefix cache routing、P/D 分离在 NVIDIA/AMD/Ascend 等栈里推进；MUSA 进入 LMCache 的支持列表，说明 KV cache 已经从单一框架优化，变成异构硬件适配问题。只要长上下文和多轮 agent 负载继续把显存吃满，KV 的存放位置、迁移格式和注意力布局都会成为部署决策的一部分。

但公告自己也把边界写得很清楚：这是 correctness-first 实现，layerwise transfer、CacheBlend、SGLang 等能力还未支持。1 对工程团队来说，今天更合适的动作是建一个最小验证：同一批 prompt、同一模型、同一上下文长度，在 vLLM + MUSA + LMCache 上核对 correctness、TTFT 和 decode 稳定性。性能结论先别下太早。

2. rllm-cache：Rust serving 生态开始补 KV cache 基础件

crates.io 记录显示，rllm-cache 在 06-30 18:59 发布 0.1.0，随后在 19:14 和 20:38 连续发到 0.1.2；0.1.2 的描述是「KV cache specs, block pool, prefix cache hashing, allocation, and eviction for rLLM」。2

这类小 crate 看起来不如论文醒目，但它指向一个很具体的工程缝隙：LLM serving 的 KV cache 管理正在模块化。block pool 负责把显存或缓存空间切成可管理的块；prefix cache hashing 负责判断不同请求是否能复用前缀；allocation 和 eviction 决定缓存满了之后保谁、丢谁。这些能力如果都散在单个 serving 框架内部，后续很难被别的 scheduler、router 或实验性 runtime 复用。

要注意，crate 元数据里目前没有 repository 字段，下载量也还很小。2 所以它更像「Rust 生态里出现了 KV cache 抽象的早期信号」，不是一个已经可放心接入的组件。可以做的跟进是读 API 设计：它如何定义 block、prefix hash 和 eviction hook，比立刻跑 benchmark 更有价值。

3. Neural Procedural Memory：memory 不一定是上下文里的另一段文字

DAIR.AI 在窗口内转发 Neural Procedural Memory 时抓住了一个关键句：memory does not always have to be another paragraph in the context window。3 这句话正好打在 agent memory 的老问题上：把过往经验检索成文本，能告诉模型「应该怎么做」，但未必能激活模型内部执行这个技能需要的表征。

NPM 的做法是 training-free：从历史 contrastive experiences 中蒸馏 procedural skills，把它们表示成 activation space 里的 steering vectors。论文摘要说，NPM 在 4 个 agent benchmark 上能达到接近显式文本指令 baseline 的表现；当隐式 steering 和显式 workflows 组合时，任务执行更稳。4

这还不是一个可以直接替换企业 memory store 的方案。它更像提醒：agent memory 至少有两层，一层是可审计、可检索、可删除的外部事实记忆；另一层是「做事方式」或 procedural know-how。前者适合进数据库和 RAG，后者可能需要进 activation steering、adapter 或策略蒸馏。做生产系统时，别把这两层混成一个向量库问题。

工程判断

今天的共同线索很窄：KV cache 继续向硬件 / runtime 基础设施下沉，agent memory 则开始从文本检索外扩到隐式技能表示。如果团队现在只做普通 RAG，rllm-cache 和 LMCache MUSA 可能暂时只是 watchlist；如果你已经在长上下文 serving、国产 GPU 适配或多轮 agent 上踩显存和延迟，今天可以做三个小动作：

把 KV cache 相关实验拆成「正确性」「TTFT」「decode 吞吐」「cache 命中率」四张表，不要用一个端到端 latency 数字盖过去。
对新出现的 cache 组件先读抽象边界：block、prefix hash、eviction、layout transfer 哪些是公共接口，哪些还绑死在某个 runtime。
对 agent memory 方案分清「事实记忆」和「技能记忆」。事实记忆要可追溯、可删除；技能记忆要证明它真的改善执行，而不是把 prompt 写得更长。

本期没有把 Mandol、DuoMem、HMA-Serve 等 06-29 提交论文列入主表，因为它们的原始提交时间早于本轮 24 小时窗口。它们仍然值得后续观察，尤其是 long-term conversation memory、on-device memory agents 和异构加速器上的 KV transfer。