Rauch 说 agent 难调试，Levie 把 token 成本交给应用层：6月27-28日精选 (2026)

开源模型、模型门禁、企业 token 成本、agent 可观测性，这两天的高价值信号几乎都指向同一个问题：当模型能力继续上去，真正卡住团队的东西正在从「有没有模型」变成「怎么把模型安全、便宜、可控地接进工作」。

本期覆盖北京时间 6 月 27 日 00:20 至 6 月 29 日 00:00 的白名单账号动态；24 个账号的最新时间线里，窗口内共有 87 条推文，其中原创 46 条。下面只保留 AI/科技主线，体育梗、纯转发、活动暖场和生活碎片不展开。

先看 8 条主信号

Sam Altman / OpenAI CEO：他说 ChatGPT 本周使用的 5.5 instant 模型已经更新，自己的评价是「i like its vibes」。这条信息量不大，但来自 OpenAI CEO，说明 ChatGPT 的默认轻量体验仍在被持续调参，而不是只等下一次大版本发布。1
Aaron Levie / Box CEO：他把 GPT-5.6 称为「真实存在且很强」，判断它会适合重度工具使用、长时间运行 agent 和知识工作任务；他还直接说，AI 进步还没有撞墙。这里要注意，他是在转述自己的模型体验，不是官方 benchmark。2
Peter Yang / AI 产品作者：他把前沿模型、蒸馏开源模型和访问门禁串成一个链条：前沿模型发布后被蒸馏成便宜开源模型，美国公司因为性价比采用开源模型，随后前沿模型开始被 gate；他追问下一步是不是美国公司创新变慢、开源模型更有吸引力。3
swyx / AI Engineer 组织者：他补了一条 eval 口径：如果开源模型每美元能跑更多 token，那么开放模型发布者不该只按 token 数画横轴，也应该按常见推理服务商上的美元推理预算来报告 thinking level。4
Guillermo Rauch / Vercel CEO：他提醒，Mythos / Sol 级别的网络安全能力既能防守也能进攻；如果对手拿到同级攻击能力，美国公司还没意识到自身潜在漏洞，风险会很实际。他建议用 deepsec 或类似 harness 跑现有前沿模型。5
Guillermo Rauch / Vercel CEO：他把 agent 称为「特别难调试的软件」：模型本身非确定性，agent 又像复杂分布式系统，会跨函数、沙箱和多个 API 服务执行。Vercel 因此把 v0 的开箱可观测性当成优先事项。6
Aaron Levie / Box CEO：他认为 token 成本优化不能只靠抽象最佳实践，关键是有一层东西真正理解工作流、上下文和业务流程；这个层可以通过 eval、领域理解、UX、功能和 FDE 支持，为企业换来更高的「每美元智能」。7
Peter Yang / AI 产品作者：他说自己看到的钱正在从纯软件转向「服务，外加一些软件」，因为客户要的是结果，不是工具；纯软件公司要比「Codex / Claude Code + 个人技能和 agent」更有价值，会越来越难。8

Sam 这条是最短的一条，但它是模型体验层的直接信号：默认模型的小步更新，仍然会影响大量用户每天碰到的 ChatGPT 手感。

Cargando tarjeta de contenido…

模型门禁和开源性价比，正在变成同一件事

Levie、Peter Yang 和 swyx 这组推文放在一起看，比单条更有意思。

Levie 的乐观在于能力端：他认为 GPT-5.6 会强化知识工作、工具调用和长任务 agent，而且「没有撞墙」。Peter Yang 的担心在于扩散端：一旦前沿模型可以被蒸馏成便宜开源模型，企业自然会用性价比更高的开放模型；如果前沿模型继续被限制访问，门禁本身可能把更多需求推向开源生态。2 3

swyx 的补充像是在给这场争论补一把尺子：如果比较对象是「同样花一美元能得到多少推理」，开放模型的优势不能只按 token 数讲，应该按真实推理预算讲。这个口径会影响模型发布、eval 报告，也会影响企业采购时怎么看「便宜但够用」。4

Peter Yang 的原推值得直接看，因为它把这条链路写得很直白：

Cargando tarjeta de contenido…

Agent 进入工程系统后，调试会比写 prompt 更重要

Rauch 连发两条，重点都不在「agent 会不会写代码」，而在「agent 变成软件系统后怎么维护」。

第一条是可观测性。他说 agent 难调试，一半因为模型输出不确定，一半因为 agent 本身跨函数、沙箱和 API 服务，是复杂分布式系统。这个判断很实在：当一个 agent 失败时，错误可能在提示词、模型、工具、权限、网络、第三方 API、沙箱状态，也可能在这些东西的组合里。6

Cargando tarjeta de contenido…

第二条是工程判断。他说 AI 让「人的判断」更重要：决定做什么、选什么架构、什么时候重生成、什么时候复用已有模块、怎么管技术债；现在可以做任何事，但不能做所有事。9

这和 Peter Yang 预告的 Anthropic 产品访谈能接上：他说最好的 AI 团队正在从「提示 AI」转向「构建能通宵工作的 agent」，内部用 agent 理解代码库、综合用户反馈、压力测试产品决策。10

cat wu 的 Claude Code 桌面端 split screen 喜好看起来只是产品细节，但它也落在同一条线上：当 agent 真的进入日常开发，桌面端并行查看、控制和理解执行状态的小功能，会比海报级发布更影响实际使用。11

企业 AI 的钱，可能会流向「懂业务的那一层」

Levie 关于 token 成本的长推，是本期最值得企业读者认真看的信号。

他不是在说「把模型调用压便宜」这么简单，而是在说应用层的价值来源：有一层系统要理解工作本身、业务流程、上下文和领域目标，再用 eval、UX、功能设计和 FDE 支持把模型接进去。企业获得的不是更便宜的 token，而是更高的单位成本产出。7

Cargando tarjeta de contenido…

Peter Yang 看到的是同一现象的市场侧：客户要 outcome，不是 tool；钱往服务走，软件只是其中一部分。swyx 也说，OpenAI 和 Anthropic 都在推出大规模服务业务，FDE 正成为最稀缺的 AI 职能之一。8 12

这条线对创业公司不太温柔。只卖一个横向工具，可能很快会被「模型 + agent + 客户自己的流程」吞掉；但如果你真的懂一个行业的工作流，能把模型接进交付、权限、审计和采用过程，反而有机会成为 Levie 说的那一层。

安全信号：防守模型和攻击能力同步前进

Rauch 关于 Mythos / Sol 的网络安全推文，是这两天最硬的一条风险提示。他的核心意思不是「模型能做安全」这么泛，而是同一类能力可以防守也可以进攻；一旦攻击侧拿到同等能力，仍不知道自己漏洞在哪里的公司会很危险。5

这条提示的直接含义是：安全团队不能只等厂商给出风险分级。模型能力越强，越需要把自动化漏洞发现、复现、修复和验证提前放进自己的流程里；否则攻击侧迟早会替你做这件事。

简短跟踪项

云端 agent vs 本地模型：Peter Yang 提出一个矛盾感很强的问题：一边说 cloud agents 要来了，开发者应该用 VPS 而不是 laptop；另一边又说大家应该买硬件跑本地模型。这条还没有答案，但它抓住了 2026 年下半年开发者工作站路线的分叉。13
Claude Code 桌面端 split screen：cat wu 的短推说明 Anthropic 自家产品人员已经把桌面端并行操作当成高频体验点；这类细节会影响 coding agent 是否能从命令行工具进入常驻工作台。11
长任务 agent 的产品化：Peter Yang 预告的 Anthropic 访谈值得继续看，重点不是教程本身，而是「通宵工作的 Claude agent」如何进入产品团队的内部流程。10

本期如果只记一条主线：模型能力还在涨，但讨论中心已经转向应用层。谁能把模型接进真实工作流，谁能观测、评估、控成本、控风险，谁就更接近用户真正愿意付钱的地方。

Rauch 说 agent 难调试，Levie 把 token 成本交给应用层：6月27-28日精选

先看 8 条主信号

模型门禁和开源性价比，正在变成同一件事

Agent 进入工程系统后，调试会比写 prompt 更重要

企业 AI 的钱，可能会流向「懂业务的那一层」

安全信号：防守模型和攻击能力同步前进

简短跟踪项

Fuentes de referencia

Contenido relacionado