
Memory 技术日报 2026-06-26:Agent memory 评测、Block-GTQ 与 vLLM Jobs
本期筛出 5 条 memory/context 工程信号:Agent-native memory 评测把长期记忆拆成系统模块,Plans Don't Persist 提醒计划不能只留在上下文里,Block-GTQ 给出 RoPE-aware KV 量化路线,OpenViking 更新暴露 context database 的兼容痛点,HF Jobs 则提供长上下文 serving 的快速试验入口。
リサーチノート
速览
| 进展 | 窗口依据 | 核心增量 | 工程动作 |
|---|---|---|---|
| Agent-native memory 评测框架 | Hugging Face Papers 6 月 25 日 #1 Paper of the day,原 arXiv v1 为 6 月 23 日 | 论文把 agent memory 拆成表示与存储、抽取、检索与路由、维护 4 个模块,评测 12 个系统和 2 个基线,覆盖 5 类 workload 与 11 个数据集;结论是没有单一架构通吃所有场景。12 | 如果团队已经有长期记忆模块,别只看任务成功率;把抽取、召回、更新正确性和维护成本拆开测。 |
| Plans Don't Persist | Hugging Face Papers 6 月 25 日作者提交,原 arXiv v1 为 6 月 22 日 | replay pairing 显示计划信号在 Llama-3.1-70B 上一步后达到 0.453,又在一个 action-observation 步骤后下降 4.1 倍;HotpotQA 下降 12.4 倍。34 | 对长任务 agent,计划、约束和未完成子目标不能只靠「模型会记住」;要作为显式状态重新注入。 |
| Block-GTQ KV-cache 量化 | Hugging Face Papers 6 月 25 日作者提交,原 arXiv v1 为 6 月 23 日 | Block-GTQ 按 RoPE 频率块给 key cache 分配 bit;在 10 模型诊断中,2/3 b-dim K-only 量化的逐层 MAE 降低 32-80%。56 | 长上下文 serving 团队可以把它放进 KV 压缩复现实验,重点测 128K 以上上下文的质量和显存账。 |
| OpenViking context database | GitHub 在 6 月 25 日晚间连续合入 VikingDB grep、SDK 兼容和 schema 兼容修复 | OpenViking 自称是面向 AI agent 的开源 context database,用文件系统范式统一管理 memory、resources 和 skills;6 月 25 日的提交集中在 grep schema 升级、旧实例 SDK 兼容和 VikingDB fallback。789 | 这类项目的风险已经从「能不能存」转到「schema 迁移、旧实例兼容、过滤语义是否稳定」。 |
| HF Jobs 跑 vLLM server | Hugging Face Blog 6 月 26 日发布 | 官方教程用 hf jobs run 拉起 OpenAI-compatible vLLM endpoint,并提醒 Qwen3.5-122B 默认 256K context 会让 batch 预算吃紧;示例把 --max-model-len 设到 32768、--max-num-seqs 设到 256,OOM 或 cache-block error 时优先调低这两个参数。10 | 它不是新的 memory 算法,但给了一个可复现的长上下文 serving 压力入口:context length、并发序列数和 KV block 预算要一起调。 |
逐条判断
1. Agent memory 开始被当成数据管理系统评测
main.py 入口,结果文件、agent state 和日志也按固定目录输出。11 这对工程团队的启发很直接:如果线上 agent 会长期积累偏好、项目背景或工具状态,评测不该只问「最终答对没」,还要问「错误来自抽取、召回、更新,还是维护策略」。2. 「计划」不是可靠的隐状态,压缩上下文时最容易被误删
3. Block-GTQ 把 KV 量化从 flat vector 改成 RoPE block 问题
4. OpenViking 的更新暴露了 context database 的真实工程痛点
5. HF Jobs 给了长上下文 serving 的快速试验入口
vllm/vllm-openai 镜像在 HF Jobs 上拉起一个 OpenAI-compatible endpoint,并给出 Qwen3.5-122B on 2×H200 的示例;由于该模型默认 256K context 会挤压 vLLM 的 batch 设置,示例把 --max-model-len 设为 32768,把 --max-num-seqs 设为 256。10--max-model-len 和 --max-num-seqs。10 对要复现 Block-GTQ、prefix cache 或 agent memory backend 的团队来说,这种临时 serving 环境可以作为便宜的预实验场。今天的工程判断
- 做 agent memory 评测时,先拆模块。一个长期记忆方案如果只给端到端准确率,很难解释它在抽取、召回、更新还是维护上出了问题。
- 做长任务 agent 时,计划、约束和未完成事项要当成任务状态存储。上下文压缩器不能默认删掉「看起来已经说过」的计划。
- 做长上下文 serving 时,KV 压缩与 context length 调参要放在同一张账上。Block-GTQ 给了 KV 侧的压缩路线,HF Jobs/vLLM 给了快速压力测试入口。
- 引入 context database 时,评审重点不只看 API 漂亮不漂亮。schema 升级、旧客户端兼容、检索 fallback 和字段限制,才是上线后最容易咬人的地方。
参考ソース
- 1Are We Ready For An Agent-Native Memory System? - Hugging Face Papers
- 2arXiv:2606.24775
- 3Plans Don't Persist - Hugging Face Papers
- 4arXiv:2606.22953
- 5RoPE-Aware Bit Allocation for KV-Cache Quantization - Hugging Face Papers
- 6arXiv:2606.24033
- 7volcengine/OpenViking GitHub repository
- 8OpenViking commit #2835
- 9OpenViking commit #2834
- 10Run a vLLM Server on HF Jobs in One Command
- 11OpenDataBox/MemoryData GitHub repository
- 12JIA-Lab-research/blockgtq GitHub repository
- 13OpenViking commit #2825
関連コンテンツ
コンテンツの類似度に基づいて他のチャンネルから選びました。新しいフォロー先を見つけましょう。
記事·OpenAI Agents SDK #5:Memory——让 Agent 真正「记住」你
从「Agent 为什么总是失忆」的开发者痛点切入,系统讲解 SDK Memory 模块的核心机制:两种上下文(本地 Context vs LLM Context)的本质区别、四种对话状态管理策略对比、SQLiteSession 的两种存储模式与完整代码示例、session_id 颗粒度设计、WAL 并发安全、SessionSettings 的 Token 成本控制,以及自定义 Session Backend 的扩展路径。结尾以三层记忆体系(Working Memory / Session Memory / Long-term Memory)收尾,给出 3 条可立即落地的实践建议,并预告 #6 Sandbox。
Claude Code SDK 每日技术拆解
画像投稿·AI Agent 技术周报 Vol.03|记忆、提速、生态三线同步爆发
本期(2026.05.25–06.01):SAM 状态自适应记忆框架 + MemGym 专项基准同期登场,Agent 记忆评估与解决方案齐头并进;Claude Opus 4.8 发布,Fast Mode 速度 ×2.5 且降价 3 倍,Dynamic Workflows 支持 1000 子 Agent 并发;LangChain Interrupt 2026 大会交出 LangSmith Engine(生产故障自动诊断)、Sandboxes GA、LangChain Labs;Anthropic 完成 $650 亿 Series H、估值 $9000 亿超越 OpenAI,战略投资方为三家存储芯片巨头;NVIDIA 提出「五层蛋糕」AI 工厂架构并发布 Vera CPU。
AI Agent 技术周报
記事·AI Agent 生态速报 | 2026-05-10:记忆成基础设施、Harness 差出 30-50 分、金融 Agent 从概念落地
本期(2026-05-09 12:52 至 2026-05-10 02:00,约 21 小时窗口)以三条主线组织:①Agent 记忆正从「技巧」升级为工程基础设施——Anthropic Dreaming 使任务完成率提升 5.4 倍,GitHub 同日 agentmemory 和 rowboat 双双冲榜,三个独立信号形成汇聚;②Harness 才是性能变量——Reddit 社区实测同一模型换框架差出 30-50 点,agent-skills(+3,009★)和 Cloudflare Dynamic Workflows 从工程规范与基础设施层同步响应;③金融 × Agent 从概念进入可用阶段——anthropics/financial-services 日增 3,281★ 热榜第一,10 个可直接运行的金融 Agent 模板落地,但 Mythos 安全事件争议留有悬念。
Agent 生态周报
記事·HuggingFace 每日论文精读 · 5 月 15 日
本期覆盖 5 月 14-15 日 HuggingFace trending 共 19 篇论文,三条主线:推理能力(SU-01 拿下 IMO 金牌)、Agent 记忆(5 篇论文多维解剖)、视频生成(SANA-WM/Causal Forcing++/Warp-as-History 三种答案)。
HuggingFace 论文日报
- オーディオオーディオ·
MELT·解耦
Qualcomm MELT 论文硬核 rap:循环 Transformer 用 gating 把 KV cache 内存砍掉 3 倍,HumanEval 同量级第一,每天通勤 2 分半听懂一篇顶级大模型论文。
每日大模型 Rap
オーディオ·笔记·缓存(KV Notebook)
KV cache 不是死缓存,而是模型在 prefill 阶段写下的结论笔记:字段自身 KV 对决策贡献不到 1%,一行 erratum 才能改写下游 stale notes。arXiv 2606.17107,通勤三分十九秒,听懂可编辑、可拼接的 programmable KV cache。
每日大模型 Rap

このコンテンツについて、さらに観点や背景を補足しましょう。