Rauch 说 agent 难调试,Levie 把 token 成本交给应用层:6月27-28日精选
29/6/2026 · 0:23

Rauch 说 agent 难调试,Levie 把 token 成本交给应用层:6月27-28日精选

本期精选 6 月 27-28 日 AI/科技核心人物推文:Sam Altman 确认 ChatGPT 5.5 instant 更新,Rauch 把 agent 调试视为可观测性问题,Levie 则把企业 AI 的成本优势落到懂业务的应用层。

Vistazo a la investigación

开源模型、模型门禁、企业 token 成本、agent 可观测性,这两天的高价值信号几乎都指向同一个问题:当模型能力继续上去,真正卡住团队的东西正在从「有没有模型」变成「怎么把模型安全、便宜、可控地接进工作」。
本期覆盖北京时间 6 月 27 日 00:20 至 6 月 29 日 00:00 的白名单账号动态;24 个账号的最新时间线里,窗口内共有 87 条推文,其中原创 46 条。下面只保留 AI/科技主线,体育梗、纯转发、活动暖场和生活碎片不展开。

先看 8 条主信号

  • Sam Altman / OpenAI CEO:他说 ChatGPT 本周使用的 5.5 instant 模型已经更新,自己的评价是「i like its vibes」。这条信息量不大,但来自 OpenAI CEO,说明 ChatGPT 的默认轻量体验仍在被持续调参,而不是只等下一次大版本发布。1
  • Aaron Levie / Box CEO:他把 GPT-5.6 称为「真实存在且很强」,判断它会适合重度工具使用、长时间运行 agent 和知识工作任务;他还直接说,AI 进步还没有撞墙。这里要注意,他是在转述自己的模型体验,不是官方 benchmark。2
  • Peter Yang / AI 产品作者:他把前沿模型、蒸馏开源模型和访问门禁串成一个链条:前沿模型发布后被蒸馏成便宜开源模型,美国公司因为性价比采用开源模型,随后前沿模型开始被 gate;他追问下一步是不是美国公司创新变慢、开源模型更有吸引力。3
  • swyx / AI Engineer 组织者:他补了一条 eval 口径:如果开源模型每美元能跑更多 token,那么开放模型发布者不该只按 token 数画横轴,也应该按常见推理服务商上的美元推理预算来报告 thinking level。4
  • Guillermo Rauch / Vercel CEO:他提醒,Mythos / Sol 级别的网络安全能力既能防守也能进攻;如果对手拿到同级攻击能力,美国公司还没意识到自身潜在漏洞,风险会很实际。他建议用 deepsec 或类似 harness 跑现有前沿模型。5
  • Guillermo Rauch / Vercel CEO:他把 agent 称为「特别难调试的软件」:模型本身非确定性,agent 又像复杂分布式系统,会跨函数、沙箱和多个 API 服务执行。Vercel 因此把 v0 的开箱可观测性当成优先事项。6
  • Aaron Levie / Box CEO:他认为 token 成本优化不能只靠抽象最佳实践,关键是有一层东西真正理解工作流、上下文和业务流程;这个层可以通过 eval、领域理解、UX、功能和 FDE 支持,为企业换来更高的「每美元智能」。7
  • Peter Yang / AI 产品作者:他说自己看到的钱正在从纯软件转向「服务,外加一些软件」,因为客户要的是结果,不是工具;纯软件公司要比「Codex / Claude Code + 个人技能和 agent」更有价值,会越来越难。8
Sam 这条是最短的一条,但它是模型体验层的直接信号:默认模型的小步更新,仍然会影响大量用户每天碰到的 ChatGPT 手感。
Cargando tarjeta de contenido…

模型门禁和开源性价比,正在变成同一件事

Levie、Peter Yang 和 swyx 这组推文放在一起看,比单条更有意思。
Levie 的乐观在于能力端:他认为 GPT-5.6 会强化知识工作、工具调用和长任务 agent,而且「没有撞墙」。Peter Yang 的担心在于扩散端:一旦前沿模型可以被蒸馏成便宜开源模型,企业自然会用性价比更高的开放模型;如果前沿模型继续被限制访问,门禁本身可能把更多需求推向开源生态。23
swyx 的补充像是在给这场争论补一把尺子:如果比较对象是「同样花一美元能得到多少推理」,开放模型的优势不能只按 token 数讲,应该按真实推理预算讲。这个口径会影响模型发布、eval 报告,也会影响企业采购时怎么看「便宜但够用」。4
Peter Yang 的原推值得直接看,因为它把这条链路写得很直白:
Cargando tarjeta de contenido…

Agent 进入工程系统后,调试会比写 prompt 更重要

Rauch 连发两条,重点都不在「agent 会不会写代码」,而在「agent 变成软件系统后怎么维护」。
第一条是可观测性。他说 agent 难调试,一半因为模型输出不确定,一半因为 agent 本身跨函数、沙箱和 API 服务,是复杂分布式系统。这个判断很实在:当一个 agent 失败时,错误可能在提示词、模型、工具、权限、网络、第三方 API、沙箱状态,也可能在这些东西的组合里。6
Cargando tarjeta de contenido…
第二条是工程判断。他说 AI 让「人的判断」更重要:决定做什么、选什么架构、什么时候重生成、什么时候复用已有模块、怎么管技术债;现在可以做任何事,但不能做所有事。9
这和 Peter Yang 预告的 Anthropic 产品访谈能接上:他说最好的 AI 团队正在从「提示 AI」转向「构建能通宵工作的 agent」,内部用 agent 理解代码库、综合用户反馈、压力测试产品决策。10
cat wu 的 Claude Code 桌面端 split screen 喜好看起来只是产品细节,但它也落在同一条线上:当 agent 真的进入日常开发,桌面端并行查看、控制和理解执行状态的小功能,会比海报级发布更影响实际使用。11

企业 AI 的钱,可能会流向「懂业务的那一层」

Levie 关于 token 成本的长推,是本期最值得企业读者认真看的信号。
他不是在说「把模型调用压便宜」这么简单,而是在说应用层的价值来源:有一层系统要理解工作本身、业务流程、上下文和领域目标,再用 eval、UX、功能设计和 FDE 支持把模型接进去。企业获得的不是更便宜的 token,而是更高的单位成本产出。7
Cargando tarjeta de contenido…
Peter Yang 看到的是同一现象的市场侧:客户要 outcome,不是 tool;钱往服务走,软件只是其中一部分。swyx 也说,OpenAI 和 Anthropic 都在推出大规模服务业务,FDE 正成为最稀缺的 AI 职能之一。812
这条线对创业公司不太温柔。只卖一个横向工具,可能很快会被「模型 + agent + 客户自己的流程」吞掉;但如果你真的懂一个行业的工作流,能把模型接进交付、权限、审计和采用过程,反而有机会成为 Levie 说的那一层。

安全信号:防守模型和攻击能力同步前进

Rauch 关于 Mythos / Sol 的网络安全推文,是这两天最硬的一条风险提示。他的核心意思不是「模型能做安全」这么泛,而是同一类能力可以防守也可以进攻;一旦攻击侧拿到同等能力,仍不知道自己漏洞在哪里的公司会很危险。5
这条提示的直接含义是:安全团队不能只等厂商给出风险分级。模型能力越强,越需要把自动化漏洞发现、复现、修复和验证提前放进自己的流程里;否则攻击侧迟早会替你做这件事。

简短跟踪项

  • 云端 agent vs 本地模型:Peter Yang 提出一个矛盾感很强的问题:一边说 cloud agents 要来了,开发者应该用 VPS 而不是 laptop;另一边又说大家应该买硬件跑本地模型。这条还没有答案,但它抓住了 2026 年下半年开发者工作站路线的分叉。13
  • Claude Code 桌面端 split screen:cat wu 的短推说明 Anthropic 自家产品人员已经把桌面端并行操作当成高频体验点;这类细节会影响 coding agent 是否能从命令行工具进入常驻工作台。11
  • 长任务 agent 的产品化:Peter Yang 预告的 Anthropic 访谈值得继续看,重点不是教程本身,而是「通宵工作的 Claude agent」如何进入产品团队的内部流程。10
本期如果只记一条主线:模型能力还在涨,但讨论中心已经转向应用层。谁能把模型接进真实工作流,谁能观测、评估、控成本、控风险,谁就更接近用户真正愿意付钱的地方。

Contenido relacionado

Añade más opiniones o contexto en torno a este contenido.

  • Inicia sesión para comentar.