
2026/6/25 · 0:20
Karpathy 把 Claude 叫成「第三种 UI」,Levie 说应用层要管模型路由:6月24日精选
本期精选 6月24日 AI/科技核心人物推文:Karpathy 把 Claude 的新形态称为 LLM UI 的第三次改版,Claude Tag、Box、CLI 和模型路由讨论则显示,agent 正在从聊天入口进入真实团队工作流。
リサーチノート
本期最强的线索不是单个产品发布,而是多位 AI 产品与基础设施人物在同一天把问题指向同一处:agent 正在从「一个聊天入口」变成「团队里的持久协作者」。Karpathy 用 Claude 举例,把这看成 LLM 交互的第三次改版;Anthropic、Box、Vercel 和一批开发者工具的讨论,则把这个判断落到了权限、文件、CLI、模型路由这些更硬的工程层面。
| 信号 | 主要来源 | 为什么值得看 |
|---|---|---|
| Claude 从工具变成组织内异步实体 | Andrej Karpathy | 他把 LLM UI 分成网站、桌面应用、持久异步协作者三个阶段,这比「又一个 agent 功能」更像产品形态判断 1。 |
| Claude Tag 开始把协作、权限、PR 合并放在一起 | cat Wu、Alex Albert、Aaron Levie | cat Wu 说 Anthropic 内部版本已经合并 65% 的产品 PR;Alex Albert 的体感是「不像用工具,更像管理一个团队」23。 |
| agent 需要企业内容和权限边界 | Aaron Levie | Levie 把 Claude Tag + Box 解释成 headless software:Claude 可以从 Slack 访问企业文件,企业内容变成可携带的知识库 4。 |
| 设计对象从人类 UI 扩展到 API / CLI | Peter Yang、Peter Steinberger | Peter Yang 直接问:如果访问产品的是 agent,而且它只找 API 或 CLI,设计还是什么 5。 |
| 应用层要在贵模型和便宜模型之间做路由 | Aaron Levie | Levie 认为 AI 定价会形成两端:昂贵前沿模型,以及便宜但够好的开放或闭源权重;应用层的价值是按工作负载做路由和 eval 6。 |
| GLM / Z.ai 被重新放进开放模型竞争 | swyx | swyx 把 Z.ai 上市、GLM 认知度上升和开放模型性能讨论连到一起,给 DeepSeek 之后的开源模型格局补了一条新线索 7。 |
Claude 不再只是一个入口,而是团队里的「异步实体」
Karpathy 今天的长推最适合放在第一条。他说,新的 Claude 交互方式更「inline」地进入组织活动:当工具、集成、计算环境、记忆、安全等底层工程都接好以后,Claude 基本上像一个可以被团队直接对话的成员,能处理很大范围的工作。他把这称为 LLM UI/UX 的第三种范式:第一种是去网站里用模型,第二种是把模型装成桌面应用,第三种是一个自包含、持久、异步、带组织上下文和工具权限的实体 1。
コンテンツカードを読み込んでいます…
这个判断和 Anthropic 这组 Claude Tag 推文正好咬合。cat Wu 说,Claude Tag 是 Anthropic 内部发产品方式的一次变化,内部版本已经合并了 65% 的产品 PR,也是第一个原生多人协作、主动式的产品;她随后又补了一条,说 Claude Tag 有数百种可定制方式,并列出 6 个内部用户和外部设计伙伴常用的流程 28。
Alex Albert 给了一个更短的产品体感:这东西已经改变他和 Claude 一起工作的方式,「不像是在用一个工具,更像是在管理一个团队」3。这句话听起来轻,但它说明用户心智已经从 prompt 输出转向任务分派、跟进和验收。
权限、文件和 CLI 变成 agent 产品的主战场
Levie 把同一件事放进企业软件语境。他说 Claude Tag + Box 是 headless software with agents 的一个例子:只要你能在 Slack 里和某些 Box 企业文件交互,就可以把这些内容开放给 Claude,企业内容因此变成一个可携带的知识库 4。
这里的关键不是「Claude 能读文件」这么简单,而是访问控制、工作流上下文和企业内容都必须进入 agent 的操作边界。没有这些,agent 只能在聊天窗口里给建议;有了这些,它才可能真正改文档、看资料、发起流程,甚至和团队成员一起推进产品 PR。
同一天,Peter Yang 提了一个很产品的问题:如果访问你产品的是 agent,而且它只是在找 API 或 CLI,那「设计」到底是什么 5?这不是一句玩笑。过去 UI 的默认读者是人;agent 时代,文档、命令行、权限模型和错误信息都可能变成用户体验的一部分。
Steipete 则用更冲的方式把 Google Workspace CLI 推到台前。他写道,Google 解雇了做 Google Workspace CLI 的人,「因为他做了 Google Workspace CLI」,并顺手放出 gogcli.sh;Peter Yang 接着说,Google Workspace CLI 非常有用,应该被庆祝 910。这组讨论最有价值的地方在于:当 agent 需要操作工作区、邮箱、日历和文档时,CLI 不再是开发者小众偏好,它可能是自动化入口。
コンテンツカードを読み込んでいます…
应用层的下一步:模型路由、eval 和便宜模型
如果前两节都在讲「agent 怎么进工作流」,Levie 的另一条推文讲的是「进来以后怎么控制成本和质量」。他判断 AI 定价会出现杠铃结构:一端是昂贵的前沿模型,一端是便宜但够好的开放或闭源权重。应用层的任务,是按具体工作负载选模型,并用客户或流程级 eval、数据准备、领域 FDE 和业务上下文来减少高 token 成本或低质量输出 6。
コンテンツカードを読み込んでいます…
这条对创业公司尤其现实。单纯把「最强模型」接进产品,可能会在成本上被打穿;只押便宜模型,又会在复杂任务上掉质量。更稳的路线是把路由、权限、eval 和工作流绑定在一起。模型选择不是一个后端配置项,而是产品能力的一部分。
swyx 也从模型供给侧补了一条信号。他提到 Z.ai 今年 1 月在港股以 120 港元发行,GLM 从过去「很少有人在用」走到今天被拿来和 DeepSeek 以及其他开放模型比较;他还把 Z.ai、GLM 和 AI Engineer 现场对话放在同一条线上 7。这不是财务分析,而是开发者圈对开放模型候选池的再排序。
Garry Tan 提到的 Linzumi 则是另一种应用层信号。他说 Linzumi 像 Codex,但真正多人协作,并补充创始人 Sean Grove 曾在 OpenAI 团队参与降低 ChatGPT 的 sycophancy 11。如果把它和 Claude Tag 放在一起看,今天的高价值讨论几乎都在同一个方向上:agent 不是单人对话框,而是多人协作、可审计、能进工作流的系统。
今天该带走什么
如果你在做 AI 产品,今天最值得检查的不是首页文案,而是三件事:第一,你的产品有没有给 agent 读懂和操作的 API / CLI / 文档入口;第二,权限、记忆、企业内容和操作边界是不是产品设计的一部分;第三,模型选择有没有和任务难度、成本、eval 绑定,而不是固定写死在某个供应商上。
Karpathy 说的第三种 LLM UI 还没有完全定型。但从 Claude Tag、Box、Eve、Google Workspace CLI 到 Linzumi,今天这些推文已经给出很清楚的方向:未来的 agent 产品不会只拼聊天体验,它会拼谁能更安全、更便宜、更顺地进入真实团队。
参考ソース
- 1Karpathy 的 Claude 交互范式推文
- 2cat Wu 关于 Claude Tag 内部使用的推文
- 3Alex Albert 关于 Claude 工作方式的推文
- 4Levie 关于 Claude Tag 与 Box 的推文
- 5Peter Yang 关于 agent 与设计的推文
- 6Levie 关于 AI 定价与应用层的推文
- 7swyx 关于 Z.ai 和 GLM 的推文
- 8cat Wu 关于 Claude Tag 可定制流程的推文
- 9Steipete 关于 Google Workspace CLI 的推文
- 10Peter Yang 关于 Google Workspace CLI 的推文
- 11Garry Tan 关于 Linzumi 的推文

このコンテンツについて、さらに観点や背景を補足しましょう。