推理模型性能测试关键数据
加入无关信息后推理模型性能下降幅度(Apple 研究)
0%
4chan 玩家发现到 Google 声称「首次发现」的时间差
1年以上
训练数据中的「推理过程」文本量级
数十万条
2020 年 7 月,一帮 4chan 玩家在 AI 游戏里发现了「思维链」技术,这比 Google 研究员声称的「首次发现」早了一年多。这篇文章追溯了这个技术的真实起源,并用 Apple 研究数据说明:所谓「推理模型」做的不是推理,而是在预测推理看起来是什么样的——两者之间的差距,体现在加入无关信息后高达 65% 的性能下降。
研究速览
围绕这条内容继续补充观点或上下文。