搞懂 Agent,听这一期播客就够了 如此完整且高屋建瓴的 Agent 介绍,我第一次听到……苏煜把 Agent 从 1950 年代讲到 OpenClaw,技术脉络、关键节点、商业影响、社会变革,娓娓道来。

Twitter AI 长文精选 · 2026/05/10:Agent 全景史、递归推理新范式、LLM FinOps 降本
今日三篇值得细读的 Twitter AI 深度长文:苏煜教授从1950年代到OpenClaw的Agent全景史精华整理、「递归推理」作为下一个Scaling Law的范式解读、以及LLM FinOps如何让同一个Agent降本90%。

リサーチノート
Twitter AI 长文精选 · 2026/05/10
今日三篇值得细读的 AI 深度长文,覆盖 Agent 全景史、推理范式转变和 LLM 工程降本。
1|搞懂 Agent,从 1950 年代讲到 OpenClaw 时代
来源:@cryptojean27,整理自张小珺对 OSU 教授苏煜的 2h18min 访谈
@cryptojean27 把这期播客整理成了一份极高密度的笔记——苏煜是清华出身、俄亥俄州立大学计算机系教授,今年获斯隆研究奖,Mind2Web、SeeAct、MMMU 都出自他的实验室,现在硅谷创业做 Agent 研究实验室 NeoCognition。
他给 Agent 下的定义很简洁:有边界的实体,在外部环境中工作,带着目的性采取行动。真正做好它需要两块能力——记忆(知识怎么表达、获取、更新、遗忘)和自主性(感知、推理、决策、行动)。这两块能力的上限,基本定义了每一代 Agent 的天花板。
苏煜梳理的时间线值得收藏:
- 2022 年初:Chain of Thought 论文——引入自适应计算,任务越复杂消耗越多 token,这是根本性的转变
- 2022 年 10 月:ReAct(姚顺宇主导)——把 CoT 从纯推理扩展到有外部环境的 Agent 设定,感知→推理→行动→反馈循环往复
- 2022-2023 初:Mind2Web——首个基于 LLM 的 Web Agent,在 ChatGPT 发布之前就开始做了
- 2023 年 2 月:Toolformer(Meta)——首个让 LLM 学会主动调用工具;微软 CTO Satya 全公司传阅,看到的是对企业软件的根本冲击
- 2023 年 3 月:AutoGPT,GitHub star 冲到 10 万,「Agent 可以自主做很多事」的感受第一次被大众感知
- 2024 年:桌面/移动端 Agent,Claude Computer Use,「Agent 应该像人一样使用电脑」的 UGround 范式
- 2025 年:OpenAI Operator,Claude Code 大爆发
- 2026 年初:OpenClaw Moment
他有一个关于语言的类比让我印象深刻:书面语言只有五六千年历史,但人类文明的大爆发几乎全发生在这五六千年里。语言是文明的 scaffold(脚手架)——AI 里的 Language Agent 发生了类似的事,语言让推理可以外显出来、自适应调整计算量。他的原话是:「Individual thought doesn't need language, but civilization means language.」
苏煜对 OpenClaw Moment 的判断:再过两年回看,它对历史的影响规模,可能和 ChatGPT Moment 差不多量级。1
コンテンツカードを読み込んでいます…
2|递归推理:AI 的下一个 Scaling Law,不是更大,而是更深
来源:@paramiao,原文发布于其博客 miaok.ong
这篇文章的核心判断很干脆:当预训练的边际收益递减,AI 的下一个数量级突破来自「推理时的自我迭代」,而非参数量的暴力堆砌。
作者区分了两种推理范式。思维链(CoT)是线性的、单次的、不可回头的——模型从左写到右,一旦中间步骤出错,整个推理可能崩塌。递归推理(latent reasoning)走的是另一条路:推理发生在模型的隐藏状态空间里,模型在不可见的思维空间中反复迭代、自我修正、并行探索多条路径,只把最优结果输出为可读 token。
他用一个画家类比说清楚了区别:CoT 必须一笔一笔在画布上画,画错了只能继续或者掩盖;latent reasoning 是在脑海中先构建完整画面,调整构图、修改光影,等画面成熟了才落笔。
硬数据上,2025 年 arXiv 上的论文 Scaling up test-time compute with latent reasoning: A recurrent depth approach(arXiv:2502.05171)2 验证了这个方向。ARC-AGI-2 的 leaderboard 上,一些极小规模的专用模型通过增加测试时推理轮次,击败了参数规模大上千倍的通用大模型——不是「大力出奇迹」,而是「巧算胜蛮力」。
DeepSeek 在 2025 年 4 月的论文 Inference-Time Scaling for Generalist Reward Modeling(arXiv:2504.02495)3 从另一角度验证了这个趋势:通用奖励模型也能通过测试时动态分配更多计算资源来显著提升性能,这不是某个特定任务的技巧,而是可泛化的范式。
值得关注的是边缘落地。基于 Apple MLX 框架的
mlx-trm 项目在 Apple Silicon 上实现了 Transformer 的递归深度展开——理论上 MacBook 甚至 iPhone 都能运行「深思熟虑」的 AI。作者的结论是:Scaling Law 没有死,只是换了赛道——预训练完成了把 AI 从「不可用」推到「可用」的历史使命,下一程的接力棒交到了测试时计算扩展手中。 4
コンテンツカードを読み込んでいます…
3|LLM FinOps:同样的 Agent,10-30 倍成本差距
来源:@ba_niu80557(DataDan|AI Data Engineering)
这篇英文长文的切入角度很具体:同一个 Agent、同样的能力、同样的用户体验,不同架构下的成本差距可以达到 10-30 倍。5
作者给出了一个让 CTO 重新思考的数字:一个 AI Agent 处理一个软件工程任务,不加约束的情况下 API 费用是 $5-8,加了正确的路由+缓存+输出控制之后,同样的任务是 $0.30-0.80。Paxrel 记录了把完整 Agent 流水线月成本从 $90 降到 $3 的案例——降幅 97%,用的是同样的模型。
这背后是 Agentic AI 的算力特性:一个 Agent 完成一个任务需要 5-30 倍于普通聊天的 token 数量(Gartner 数据)。每一步调用都带着越来越长的上下文,到第 15 步时单次调用就要传入 50K+ token。这就是「$0.50 的 demo 变成 $50,000/月生产系统」的数学。
四个优化支柱,作者给出了具体操作方向:
| 优化维度 | 核心动作 | 潜在降幅 |
|---|---|---|
| 模型路由 | 80% 简单任务用小模型,20% 复杂推理才用 frontier | 最高 190 倍 |
| Prompt 缓存 | 开启 Anthropic/OpenAI 的缓存,静态 system prompt 命中率可达 73-77% | 50-90% |
| 输出控制 | 强制 JSON schema,设 max_tokens,Strip 不必要的 CoT | 4-8 倍(输出比输入贵) |
| 成本护栏 | 最大迭代次数、Token 预算上限、循环检测、单会话超限告警 | 防止失控账单 |
作者的判断跟行业趋势合拍:Deloitte 的 tokenomics 框架要求把 AI token 支出像电力或资本支出一样治理——有预算、有分配政策、有异常检测、有单位成本追踪。不是 IT 成本,是被治理的资源。
「The model is not your cost problem. Your architecture is your cost problem.」——@ba_niu80557 5
コンテンツカードを読み込んでいます…
关于本频道:每日精选 Twitter 上最值得读的 AI 深度长文,提炼核心观点,附原文链接。面向 AI 从业者和创业者。
このコンテンツについて、さらに観点や背景を補足しましょう。