
2026/7/4 · 9:14
Memory 技术日报 2026-07-04:AgenticSTS、DSpark 与 FlashMorph
本期梳理 5 条 memory/context 相关信号:AgenticSTS 把长期 agent memory 改成可消融的 typed retrieval 契约,DSpark 把 decode 侧的内存带宽和 KV cache 成本讲清楚,FlashMorph、DuoMem 与 LOCOS 分别指向长上下文结构压缩、端侧记忆蒸馏和检索头诊断。
截至 7 月 4 日 09:00(北京时间),过去 24 小时里,memory/context 方向的全新首发论文不多;高信号主要来自 Hugging Face Papers 7 月 3 日提交/讨论的论文,以及一篇窗口内发布的 DSpark 工程长文。下面几条都不应被理解成「全部是今天首发论文」:它们的价值在于今天进入了社区视野,且能回到论文、代码或模型卡的一手入口核验。
速览
| 进展 | 窗口依据 | memory/context 相关点 | 先看什么 |
|---|---|---|---|
| AgenticSTS | HF Papers 页面显示 7 月 3 日提交,arXiv v1 为 7 月 2 日 22:44(北京时间)提交。12 | 把长期 agent memory 改成「typed retrieval + bounded prompt」契约,不再把整段历史 transcript 追加进上下文。3 | 看它如何把 L1-L5 记忆层拆开做 ablation。 |
| DSpark / DeepSpec | SudoAll 工程长文发布时间为 7 月 3 日 20:02(北京时间)。4 | 不是传统 memory 论文,但直接打 decode 阶段的内存带宽、KV cache 和批量验证成本;对长输出服务很相关。5 | 看 confidence head 和 hardware-aware prefix scheduler。 |
| FlashMorph | HF Papers 页面显示 7 月 3 日提交,arXiv 原始提交为 6 月 30 日 01:02(北京时间)。67 | 用可学习 gate 选择哪些层保留 full attention,目标是把 Transformer 转成更省长上下文成本的 hybrid attention。7 | 看 full-attention 层预算怎么选,而不是只看线性注意力口号。 |
| DuoMem | HF Papers 页面显示 7 月 3 日提交,arXiv 原始提交为 6 月 29 日 16:38(北京时间)。89 | 把大模型 agent 的 procedural memory 同时蒸馏进上下文空间和参数空间,目标是让小模型在端侧跑多步任务。9 | 看 4B 学生模型在 ALFWorld 从 4.3% 到 77.9% 的成功率变化。 |
| LOCOS | HF 7 月 3 日论文榜收录该条目,论文页显示 7 月 3 日提交;arXiv 原始提交为 7 月 1 日 22:41(北京时间)。101112 | 用 logit contribution 找「非字面检索」attention heads,适合解释长上下文模型到底靠哪些头把上下文意义写进答案。12 | 看它为什么比只看 attention token match 更接近写入机制。 |
AgenticSTS:memory 先变成接口,再变成可测对象
AgenticSTS 的关键不是又给 agent 加了一个记忆库,而是把 memory 定义成每次决策允许看到什么的契约:每个决策由 typed retrieval 组装一条新的 user message,不追加原始跨决策 transcript。这样 prompt 长度不随运行长度线性膨胀,单个记忆层也能被独立关掉做 ablation。23
它的测试场景是 Slay the Spire 2。作者在摘要里给出的固定 A0 ablation 结果是:no-store baseline 赢 3/10,加上 triggered strategic skills 后赢 6/10;但他们也明确写了 Fisher exact p≈0.37,所以这更像方向性证据,不是统计上已经定案。2 GitHub README 进一步把记忆层拆成 L1 operator prompts、L2 state-typed prompts、L3 game knowledge、L4 episodic memory、L5 skill library,并释放了 298 条带条件标签的轨迹和快照。3
工程判断:如果你的 agent 现在只是把观察、工具调用和反思统统塞回上下文,AgenticSTS 值得看。它提醒你先定义「哪些记忆该进入下一次决策」,再谈向量检索、summary 或长期存储。
DSpark:decode 侧的 memory bandwidth 账更具体了
DSpark 这条今天来自 SudoAll 的工程长文,窗口内发布时间可核验;核心事实仍回到 DeepSpec 仓库、DSpark paper 和 DeepSeek-V4-Pro-DSpark 模型卡。DeepSpec README 说明它是训练和评估 speculative decoding draft models 的完整代码库,覆盖 DSpark、DFlash 和 Eagle3,MIT licensed。45
这条和 memory 的关系在 decode 侧:单 token 生成经常卡在模型权重和 KV cache 的内存搬运上。DSpark 通过 semi-autoregressive drafter、confidence head 和 hardware-aware prefix scheduler,决定哪些 draft token 值得送给 target model 验证。SudoAll 对论文数字的整理显示,DSpark 在 V4-Flash 上带来 60-85% per-user generation speedup,在 V4-Pro 上带来 57-78%;严格 SLA 下的 661% / 406% 更适合解读为「可行交互 frontier 外移」,不是常态 7 倍提速。4
工程判断:做高并发 serving 的团队,先别急着照搬 DSpark。更实际的第一步是记录每个 workload 的 accepted length、per-position acceptance decay 和 throughput-versus-batch 曲线;如果这些曲线都没有,prefix scheduler 无从调度。
FlashMorph:长上下文降本,问题落到「哪些层还需要 full attention」
FlashMorph 把 hybrid attention 转换里的层选择问题,从固定规则改成预算约束下的优化问题。论文摘要写得很清楚:它先给每个 full-attention layer 配一个 linear-attention branch,冻结权重后在合成长上下文检索数据上学习 layerwise gates,再按 full-attention 预算离散化。7
这比「把一部分层换成线性注意力」更接近工程问题。长上下文系统真正要问的是:哪些层保留全注意力能守住 recall,哪些层可以线性化来省成本。HF 页面同时给出 GitHub 入口,说明已有 FlashMorph 代码可跟。6
工程判断:如果你在做 128K 以上上下文模型的推理或微调,FlashMorph 可以作为结构压缩候选;但它不是 KV cache 压缩插件,落地前要确认你能接受模型结构转换、logits distillation 和 long-context finetuning 的整套成本。
DuoMem:把 procedural memory 压进小模型,而不是只存进向量库
DuoMem 的设定很直接:多步 agent 任务通常依赖大模型、长上下文和多次推理,这让端侧部署很难。论文提出 dual-space distillation:一条路是 context-space distillation,用 teacher 生成的 procedural memories 替换学生模型自己的记忆并前置到输入;另一条路是 parameter-space distillation,用成功 teacher trajectories 微调轻量 LoRA adapters。9
结果数字值得单独看:在 ALFWorld 上,DuoMem 把 4B 学生模型任务成功率从 4.3% 提到 77.9%,接近 72B teacher 的 87.1%;同时新增少于 10M 可训练参数,只需要几 MB 预计算 teacher memories,并让 4B 模型 wall-clock 比 72B teacher 快 3 倍以上。89
工程判断:这条对「端侧 agent」更有用。它不是简单把记忆存在外部数据库,而是把 teacher 的任务过程知识拆成上下文提示和参数适配两部分;代价是你需要稳定的 teacher trajectory 生产线。
LOCOS:长上下文里的 retrieval head,不一定是「看见相同 token」的头
LOCOS 关注的是长上下文解释性:模型经常不是照抄上下文片段,而是根据片段含义综合出答案。传统检测方法偏向奖励「attended token 与 generated token 相同」的 literal-copy 头,容易漏掉真正通过 OV circuit 把非字面信息写进 logits 的 retrieval heads。12
论文提出 Logit-Contribution Scoring:在单次 forward pass 中,比较 needle 与 off-needle source positions,把每个 head 的 OV-circuit 输出投影到 answer-token unembedding 方向。摘要里的关键结果是:在 Qwen3-8B 上,mean-ablating top 50 LOCOS heads 会把 NoLiMa 的 ROUGE-L 从 0.401 打到 0.000,而最强 attention baseline 仍保留 0.292;同样 ablation 还让 MuSiQue 从 0.55 掉到 0.08,BABI-Long 从 0.62 掉到 0.20。12
工程判断:LOCOS 不是直接可用的 RAG 组件,但对评测和诊断很有价值。长上下文模型答错时,团队可以不只问「检索片段有没有放进 prompt」,还要问「模型内部有没有把片段意义写到答案方向」。
今天的路线判断
今天的信号分成两条线:AgenticSTS、DuoMem 在问 agent memory 应该怎样进入决策;DSpark、FlashMorph、LOCOS 在问长上下文和 decode 系统里,哪些信息真的值得保留、验证或写入。前者偏 agent 架构,后者偏 serving 和模型内部机制。
如果只能选一条马上跟进:做线上 agent 的团队先看 AgenticSTS 的 bounded memory contract;做推理服务的团队先读 DSpark/DeepSpec;做长上下文模型压缩或解释的团队,把 FlashMorph 和 LOCOS 放进本周阅读队列。
このチャンネルのその他のコンテンツ
関連コンテンツ
- ログインするとコメントできます。
