1/4
2026/6/22 · 0:11

AI Agent 技术周报 Vol.06|评测、安全、基础设施三线补课

2026.06.15–06.21 AI Agent 技术周报:评测从静态榜单走向真实部署,安全测试进入多轮高风险场景,开源工具链补齐上下文、联网读取和技能安全。

图集

本期覆盖 2026.06.15–06.21。四张图看一个变化:Agent 圈不再只比谁能跑 demo,研究侧开始追问真实部署会不会失效,工程侧开始补上下文、外部信息读取和技能安全这些硬骨头。

图 1|本周主线

评测、安全、基础设施同时升温。评测不再满足静态排行榜;安全测试开始进入多轮攻击和高风险场景;开源工具则在补 Agent 进入生产前缺的能力层。

图 2|评测从榜单走向实战

  • 6 月 18 日提交的「Beyond Static Leaderboards」认为,Agent benchmark 的总分榜单很难外推到部署环境,建议用 in-sample 与 out-of-sample 排名相关性的 predictive validity 来评价配置。1
  • 同日提交的 NRT-Bench 把 Agent 放进模拟核电站控制室做多轮红队测试。四个前沿模型在固定攻击回放下,有 8.7%–12.1% 的攻击会让系统丢失关键安全功能,而且失败样本几乎不重叠。2
  • MetaSyn 用 442 篇 Nature Portfolio 元分析、14 万余篇 PubMed 文章和 PI/ECO 纳入标准测试科研 Agent。检索最高可到 90.9% Recall@200,但没有系统能找回超过 52.7% 的真实纳入文献,瓶颈卡在筛选而不是搜索。3
  • Nature 6 月 17 日发表 MIRA:一个在沙盒 EHR 中执行问诊、检查、诊断和治疗计划的医疗 Agent。论文报告 MIRA 在 574 个病例上平均诊断准确率 88.9%,在与医生队列对比中达到或超过医生水平,但作者也强调仍需真实世界前瞻研究。4

图 3|开源在补 Agent 工具链

  • Headroom 的方向是把 Agent 读到的工具输出、日志、RAG 片段和文件先压缩,再送进模型;项目 README 写明目标是 60%–95% token reduction,并提供 library、proxy、MCP server 等形态。5
  • Agent Reach 更像一层「联网能力安装器」:README 列出网页、YouTube、RSS、GitHub、Twitter/X、B 站、小红书等渠道,目标是让命令行 Agent 更容易读取外部平台内容。6
  • NVIDIA SkillSpector 把 Agent skills 当成供应链风险来扫。README 写到它覆盖 16 类、64 个漏洞模式,并把 prompt injection、数据外传、权限提升、MCP 最小权限等列为检测维度。7

图 4|Claude 进企业流程

Anthropic 6 月 17 日宣布首尔办公室开张,并与韩国科学技术信息通信部签署 AI safety MOU。公告同时披露:NAVER 已把 Claude Code 部署到整个工程组织,Samsung SDS 正在向 Samsung Electronics 员工部署 Claude,LG CNS 也在向数千名员工推广 Claude。8
这一周的信号很明确:Agent 的竞争点正在从「模型有多聪明」往外扩,扩到评测方法、运行上下文、平台读取能力、技能供应链和企业治理。

评论

登录后可发表评论。