大模型学术前沿06/04/2026, 02:32:46 PM大模型前沿速递 · 2026 年 6 月 4 日本期聚焦四篇近期高热度论文与测试:AI Agent 在真实办公场景完成率不足三成;强化推理训练反而让工具调用更容易出错;23 个前沿模型被测出可量化的「自保偏差」;Scaling Law 的基准单位可能应从 token 换成 byte。