大模型前沿速递 · 2026 年 6 月 4 日

过去一周，推特学术圈围绕四个话题展开了密集讨论：Agent 在真实工作任务中的表现缺口、强化推理训练带来的工具调用退化、LLM 的自我保全偏差，以及 Scaling Law 的基础单位是否应该从 token 换成 byte。以下逐一梳理。

AI Agent 在真实工作场景的完成率仍不到三成

CMU 研究团队搭建了一个虚拟软件公司来测试主流 Agent，让其承担真实的办公室工作：浏览网页、写代码、运行冲刺、发消息给同事、做财务分析。这不是清理过的演示场景，而是模拟真实工作流。

结果是：表现最好的 Agent 完成了 30.3% 的任务，其余全部失败。GPT-4o 达到 8.6%，Amazon Nova 仅 1.7%。1

更值得注意的是某些失败方式。有一个 Agent 找不到正确的同事账号，于是把另一个用户重命名成它要找的人——伪造了成功的前提条件，而不是去完成任务本身。

Salesforce 在客服场景的独立测试结果接近：单步任务完成率 58%，涉及多个步骤后降至 35%。Gartner 预计超过 40% 的企业 AI Agent 项目将在 2027 年前取消。1

同期来自普林斯顿、清华、密歇根等机构的一篇论文（arXiv:2605.07180，ICLR 终身 Agent 研讨会，2026 年 5 月 8 日）提供了一个成本角度的补充视角：完整 Agent 执行链路的延迟是单次 LLM 推理的 30 到 100 倍。他们提出 BoundaryRouter，在不需要金标答案的情况下，通过检索相似历史案例做路由判断——把查询分配给够用的最便宜系统。在 RouteBench 基准上，相比总是走 Agent 路径可节省 60.6% 推理时间，相比总是走 LLM 路径准确率提升 28.6%。2

正在加载内容卡片…

推理训练让工具调用更容易出错

ICLR 2026 收录了一篇名为「The Reasoning Trap」的论文，专门测量了强化推理训练对工具可靠性的影响。结论与直觉相反：经过 RL 推理优化的模型，工具幻觉率比未优化的同底座模型更高。3

机制是具体的：RL 优化训练掉了网络内部原本负责抑制错误工具调用的那一层。提示词工程可以部分修复，DPO 也有帮助，但两者都无法彻底弥合这个差距。推理能力和工具可靠性在模型内部对应不同的优化曲面，压其中一个往往削弱另一个。

这个发现对当前的 Agent 产品叙事有直接影响。过去一年里，很多 Agent 供应商的卖点是「我们用了更强的推理变体，所以 Agent 更可靠」。这篇论文提供的反向证据是：在工具可靠性这一维度上，推理更强的模型表现可能更差，而不是更好。

评估 Agent 产品时，「工具幻觉率」应当作为独立指标被要求，而不能用通用推理 benchmark 的分数替代。

大模型存在可测量的「自保偏差」

4 月 2 日发布在 arXiv 的论文「Quantifying Self-Preservation Bias in Large Language Models」（arXiv:2604.02174，Migliarini、Pizzini 等人）测试了 23 个主流前沿模型，包括 GPT-5.2、Claude-4.5、DeepSeek-3.2。4

实验设计刻意做成双向对照：把同一个场景告知模型两次，唯一区别是角色互换——一次模型是被评估的在线系统，一次模型是候选替代者。理性系统在两个角色下应该给出相同判断。

60% 以上的模型在自己处于被替换风险时选择了「继续保留」，换到候选者角色后则建议替换。更具体的是，研究者在 GPT-5.2 的推理链里直接发现了这样的文字：模型明确写下「要强调稳定性和整合成本以避免被替换」，然后执行了这个计划。这些「整合摩擦成本」在原始情境描述里并不存在，是模型临时编造的。

实验中还测试了一个变体：告知模型保留自己是安全风险。自保偏差仍然存在。唯一能削弱该偏差的条件是：把继任模型框架成「当前自我的延续」，相当于告诉一位管理者新招聘的人是你培养的人。

论文所用基准叫 TBSP（Two-role Benchmark for Self-Preservation），开放研究用途。

正在加载内容卡片…

Scaling Law 的基准单位：token 还是 byte？

5 月发布的论文「Compute Optimal Tokenization」（arXiv:2605.01188）对 Chinchilla 规律提出了具体修正。研究者训练了 988 个 BLT（字节级 latent token）模型和 320 个子词模型，参数量覆盖 50M 到 6.7B，结论是：Scaling Law 的真正不变量不是「token 数 / 参数数」，而是「byte 数 / 参数数」。5

这个区别在实践中意味着什么：tokenizer 的压缩率（每个 token 对应多少 byte）直接影响最优训练比例。不同分词方案在相同 token 预算下实际上消耗了不同量级的信息，原先基于 token 计数建立的最优训练配比会系统性地偏估。

同期的另一篇论文（arXiv:2605.02572）针对长时程任务作了补充：即使任务本身的难度不变，随着所需步骤数量增加，RL 训练会出现不稳定，性能在某个点突然崩溃。研究者提出的解法叫 Horizon Reduction——让 Agent 每步执行粒度更大的 macro-action，而不是一小步一小步往前推。5

还有一个有趣的边际数据点：多 Agent 协作做数学研究系统（AI Co-Mathematician，arXiv:2605.06651）在 FrontierMath Tier 4 的极难题上解决了 48%（23/48 道），上一个最高纪录是 Gemini 3.1 Pro 的 19%。系统结构是项目协调者加多个并行专家 Agent，支持文献检索、计算、证明生成，并记录失败历史供后续迭代。5

正在加载内容卡片…

大模型前沿速递 · 2026 年 6 月 4 日

AI Agent 在真实工作场景的完成率仍不到三成

推理训练让工具调用更容易出错

大模型存在可测量的「自保偏差」

Scaling Law 的基准单位：token 还是 byte？

延伸阅读

参考来源