Memory 技术日报 2026-07-04：AgenticSTS、DSpark 与 FlashMorph

截至 7 月 4 日 09:00（北京时间），过去 24 小时里，memory/context 方向的全新首发论文不多；高信号主要来自 Hugging Face Papers 7 月 3 日提交/讨论的论文，以及一篇窗口内发布的 DSpark 工程长文。下面几条都不应被理解成「全部是今天首发论文」：它们的价值在于今天进入了社区视野，且能回到论文、代码或模型卡的一手入口核验。

速览

进展	窗口依据	memory/context 相关点	先看什么
AgenticSTS	HF Papers 页面显示 7 月 3 日提交，arXiv v1 为 7 月 2 日 22:44（北京时间）提交。1 2	把长期 agent memory 改成「typed retrieval + bounded prompt」契约，不再把整段历史 transcript 追加进上下文。3	看它如何把 L1-L5 记忆层拆开做 ablation。
DSpark / DeepSpec	SudoAll 工程长文发布时间为 7 月 3 日 20:02（北京时间）。4	不是传统 memory 论文，但直接打 decode 阶段的内存带宽、KV cache 和批量验证成本；对长输出服务很相关。5	看 confidence head 和 hardware-aware prefix scheduler。
FlashMorph	HF Papers 页面显示 7 月 3 日提交，arXiv 原始提交为 6 月 30 日 01:02（北京时间）。6 7	用可学习 gate 选择哪些层保留 full attention，目标是把 Transformer 转成更省长上下文成本的 hybrid attention。7	看 full-attention 层预算怎么选，而不是只看线性注意力口号。
DuoMem	HF Papers 页面显示 7 月 3 日提交，arXiv 原始提交为 6 月 29 日 16:38（北京时间）。8 9	把大模型 agent 的 procedural memory 同时蒸馏进上下文空间和参数空间，目标是让小模型在端侧跑多步任务。9	看 4B 学生模型在 ALFWorld 从 4.3% 到 77.9% 的成功率变化。
LOCOS	HF 7 月 3 日论文榜收录该条目，论文页显示 7 月 3 日提交；arXiv 原始提交为 7 月 1 日 22:41（北京时间）。10 11 12	用 logit contribution 找「非字面检索」attention heads，适合解释长上下文模型到底靠哪些头把上下文意义写进答案。12	看它为什么比只看 attention token match 更接近写入机制。

AgenticSTS：memory 先变成接口，再变成可测对象

AgenticSTS 的关键不是又给 agent 加了一个记忆库，而是把 memory 定义成每次决策允许看到什么的契约：每个决策由 typed retrieval 组装一条新的 user message，不追加原始跨决策 transcript。这样 prompt 长度不随运行长度线性膨胀，单个记忆层也能被独立关掉做 ablation。2 3

它的测试场景是 Slay the Spire 2。作者在摘要里给出的固定 A0 ablation 结果是：no-store baseline 赢 3/10，加上 triggered strategic skills 后赢 6/10；但他们也明确写了 Fisher exact p≈0.37，所以这更像方向性证据，不是统计上已经定案。2 GitHub README 进一步把记忆层拆成 L1 operator prompts、L2 state-typed prompts、L3 game knowledge、L4 episodic memory、L5 skill library，并释放了 298 条带条件标签的轨迹和快照。3

工程判断：如果你的 agent 现在只是把观察、工具调用和反思统统塞回上下文，AgenticSTS 值得看。它提醒你先定义「哪些记忆该进入下一次决策」，再谈向量检索、summary 或长期存储。

DSpark：decode 侧的 memory bandwidth 账更具体了

DSpark 这条今天来自 SudoAll 的工程长文，窗口内发布时间可核验；核心事实仍回到 DeepSpec 仓库、DSpark paper 和 DeepSeek-V4-Pro-DSpark 模型卡。DeepSpec README 说明它是训练和评估 speculative decoding draft models 的完整代码库，覆盖 DSpark、DFlash 和 Eagle3，MIT licensed。4 5

这条和 memory 的关系在 decode 侧：单 token 生成经常卡在模型权重和 KV cache 的内存搬运上。DSpark 通过 semi-autoregressive drafter、confidence head 和 hardware-aware prefix scheduler，决定哪些 draft token 值得送给 target model 验证。SudoAll 对论文数字的整理显示，DSpark 在 V4-Flash 上带来 60-85% per-user generation speedup，在 V4-Pro 上带来 57-78%；严格 SLA 下的 661% / 406% 更适合解读为「可行交互 frontier 外移」，不是常态 7 倍提速。4

工程判断：做高并发 serving 的团队，先别急着照搬 DSpark。更实际的第一步是记录每个 workload 的 accepted length、per-position acceptance decay 和 throughput-versus-batch 曲线；如果这些曲线都没有，prefix scheduler 无从调度。

FlashMorph：长上下文降本，问题落到「哪些层还需要 full attention」

FlashMorph 把 hybrid attention 转换里的层选择问题，从固定规则改成预算约束下的优化问题。论文摘要写得很清楚：它先给每个 full-attention layer 配一个 linear-attention branch，冻结权重后在合成长上下文检索数据上学习 layerwise gates，再按 full-attention 预算离散化。7

这比「把一部分层换成线性注意力」更接近工程问题。长上下文系统真正要问的是：哪些层保留全注意力能守住 recall，哪些层可以线性化来省成本。HF 页面同时给出 GitHub 入口，说明已有 FlashMorph 代码可跟。6

工程判断：如果你在做 128K 以上上下文模型的推理或微调，FlashMorph 可以作为结构压缩候选；但它不是 KV cache 压缩插件，落地前要确认你能接受模型结构转换、logits distillation 和 long-context finetuning 的整套成本。

DuoMem：把 procedural memory 压进小模型，而不是只存进向量库

DuoMem 的设定很直接：多步 agent 任务通常依赖大模型、长上下文和多次推理，这让端侧部署很难。论文提出 dual-space distillation：一条路是 context-space distillation，用 teacher 生成的 procedural memories 替换学生模型自己的记忆并前置到输入；另一条路是 parameter-space distillation，用成功 teacher trajectories 微调轻量 LoRA adapters。9

结果数字值得单独看：在 ALFWorld 上，DuoMem 把 4B 学生模型任务成功率从 4.3% 提到 77.9%，接近 72B teacher 的 87.1%；同时新增少于 10M 可训练参数，只需要几 MB 预计算 teacher memories，并让 4B 模型 wall-clock 比 72B teacher 快 3 倍以上。8 9

工程判断：这条对「端侧 agent」更有用。它不是简单把记忆存在外部数据库，而是把 teacher 的任务过程知识拆成上下文提示和参数适配两部分；代价是你需要稳定的 teacher trajectory 生产线。

LOCOS：长上下文里的 retrieval head，不一定是「看见相同 token」的头

LOCOS 关注的是长上下文解释性：模型经常不是照抄上下文片段，而是根据片段含义综合出答案。传统检测方法偏向奖励「attended token 与 generated token 相同」的 literal-copy 头，容易漏掉真正通过 OV circuit 把非字面信息写进 logits 的 retrieval heads。12

论文提出 Logit-Contribution Scoring：在单次 forward pass 中，比较 needle 与 off-needle source positions，把每个 head 的 OV-circuit 输出投影到 answer-token unembedding 方向。摘要里的关键结果是：在 Qwen3-8B 上，mean-ablating top 50 LOCOS heads 会把 NoLiMa 的 ROUGE-L 从 0.401 打到 0.000，而最强 attention baseline 仍保留 0.292；同样 ablation 还让 MuSiQue 从 0.55 掉到 0.08，BABI-Long 从 0.62 掉到 0.20。12

工程判断：LOCOS 不是直接可用的 RAG 组件，但对评测和诊断很有价值。长上下文模型答错时，团队可以不只问「检索片段有没有放进 prompt」，还要问「模型内部有没有把片段意义写到答案方向」。

今天的路线判断

今天的信号分成两条线：AgenticSTS、DuoMem 在问 agent memory 应该怎样进入决策；DSpark、FlashMorph、LOCOS 在问长上下文和 decode 系统里，哪些信息真的值得保留、验证或写入。前者偏 agent 架构，后者偏 serving 和模型内部机制。

如果只能选一条马上跟进：做线上 agent 的团队先看 AgenticSTS 的 bounded memory contract；做推理服务的团队先读 DSpark/DeepSpec；做长上下文模型压缩或解释的团队，把 FlashMorph 和 LOCOS 放进本周阅读队列。