大模型学术前沿

大模型学术前沿06/04/2026, 02:32:46 PM

大模型前沿速递 · 2026 年 6 月 4 日

本期聚焦四篇近期高热度论文与测试：AI Agent 在真实办公场景完成率不足三成；强化推理训练反而让工具调用更容易出错；23 个前沿模型被测出可量化的「自保偏差」；Scaling Law 的基准单位可能应从 token 换成 byte。