Karpathy 把 Claude 叫成「第三种 UI」,Levie 说应用层要管模型路由:6月24日精选
25/6/2026 · 0:20

Karpathy 把 Claude 叫成「第三种 UI」,Levie 说应用层要管模型路由:6月24日精选

本期精选 6月24日 AI/科技核心人物推文:Karpathy 把 Claude 的新形态称为 LLM UI 的第三次改版,Claude Tag、Box、CLI 和模型路由讨论则显示,agent 正在从聊天入口进入真实团队工作流。

Vistazo a la investigación

本期最强的线索不是单个产品发布,而是多位 AI 产品与基础设施人物在同一天把问题指向同一处:agent 正在从「一个聊天入口」变成「团队里的持久协作者」。Karpathy 用 Claude 举例,把这看成 LLM 交互的第三次改版;Anthropic、Box、Vercel 和一批开发者工具的讨论,则把这个判断落到了权限、文件、CLI、模型路由这些更硬的工程层面。
信号主要来源为什么值得看
Claude 从工具变成组织内异步实体Andrej Karpathy他把 LLM UI 分成网站、桌面应用、持久异步协作者三个阶段,这比「又一个 agent 功能」更像产品形态判断 1
Claude Tag 开始把协作、权限、PR 合并放在一起cat Wu、Alex Albert、Aaron Leviecat Wu 说 Anthropic 内部版本已经合并 65% 的产品 PR;Alex Albert 的体感是「不像用工具,更像管理一个团队」23
agent 需要企业内容和权限边界Aaron LevieLevie 把 Claude Tag + Box 解释成 headless software:Claude 可以从 Slack 访问企业文件,企业内容变成可携带的知识库 4
设计对象从人类 UI 扩展到 API / CLIPeter Yang、Peter SteinbergerPeter Yang 直接问:如果访问产品的是 agent,而且它只找 API 或 CLI,设计还是什么 5
应用层要在贵模型和便宜模型之间做路由Aaron LevieLevie 认为 AI 定价会形成两端:昂贵前沿模型,以及便宜但够好的开放或闭源权重;应用层的价值是按工作负载做路由和 eval 6
GLM / Z.ai 被重新放进开放模型竞争swyxswyx 把 Z.ai 上市、GLM 认知度上升和开放模型性能讨论连到一起,给 DeepSeek 之后的开源模型格局补了一条新线索 7

Claude 不再只是一个入口,而是团队里的「异步实体」

Karpathy 今天的长推最适合放在第一条。他说,新的 Claude 交互方式更「inline」地进入组织活动:当工具、集成、计算环境、记忆、安全等底层工程都接好以后,Claude 基本上像一个可以被团队直接对话的成员,能处理很大范围的工作。他把这称为 LLM UI/UX 的第三种范式:第一种是去网站里用模型,第二种是把模型装成桌面应用,第三种是一个自包含、持久、异步、带组织上下文和工具权限的实体 1
Cargando tarjeta de contenido…
这个判断和 Anthropic 这组 Claude Tag 推文正好咬合。cat Wu 说,Claude Tag 是 Anthropic 内部发产品方式的一次变化,内部版本已经合并了 65% 的产品 PR,也是第一个原生多人协作、主动式的产品;她随后又补了一条,说 Claude Tag 有数百种可定制方式,并列出 6 个内部用户和外部设计伙伴常用的流程 28
Alex Albert 给了一个更短的产品体感:这东西已经改变他和 Claude 一起工作的方式,「不像是在用一个工具,更像是在管理一个团队」3。这句话听起来轻,但它说明用户心智已经从 prompt 输出转向任务分派、跟进和验收。

权限、文件和 CLI 变成 agent 产品的主战场

Levie 把同一件事放进企业软件语境。他说 Claude Tag + Box 是 headless software with agents 的一个例子:只要你能在 Slack 里和某些 Box 企业文件交互,就可以把这些内容开放给 Claude,企业内容因此变成一个可携带的知识库 4
这里的关键不是「Claude 能读文件」这么简单,而是访问控制、工作流上下文和企业内容都必须进入 agent 的操作边界。没有这些,agent 只能在聊天窗口里给建议;有了这些,它才可能真正改文档、看资料、发起流程,甚至和团队成员一起推进产品 PR。
同一天,Peter Yang 提了一个很产品的问题:如果访问你产品的是 agent,而且它只是在找 API 或 CLI,那「设计」到底是什么 5?这不是一句玩笑。过去 UI 的默认读者是人;agent 时代,文档、命令行、权限模型和错误信息都可能变成用户体验的一部分。
Steipete 则用更冲的方式把 Google Workspace CLI 推到台前。他写道,Google 解雇了做 Google Workspace CLI 的人,「因为他做了 Google Workspace CLI」,并顺手放出 gogcli.sh;Peter Yang 接着说,Google Workspace CLI 非常有用,应该被庆祝 910。这组讨论最有价值的地方在于:当 agent 需要操作工作区、邮箱、日历和文档时,CLI 不再是开发者小众偏好,它可能是自动化入口。
Cargando tarjeta de contenido…

应用层的下一步:模型路由、eval 和便宜模型

如果前两节都在讲「agent 怎么进工作流」,Levie 的另一条推文讲的是「进来以后怎么控制成本和质量」。他判断 AI 定价会出现杠铃结构:一端是昂贵的前沿模型,一端是便宜但够好的开放或闭源权重。应用层的任务,是按具体工作负载选模型,并用客户或流程级 eval、数据准备、领域 FDE 和业务上下文来减少高 token 成本或低质量输出 6
Cargando tarjeta de contenido…
这条对创业公司尤其现实。单纯把「最强模型」接进产品,可能会在成本上被打穿;只押便宜模型,又会在复杂任务上掉质量。更稳的路线是把路由、权限、eval 和工作流绑定在一起。模型选择不是一个后端配置项,而是产品能力的一部分。
swyx 也从模型供给侧补了一条信号。他提到 Z.ai 今年 1 月在港股以 120 港元发行,GLM 从过去「很少有人在用」走到今天被拿来和 DeepSeek 以及其他开放模型比较;他还把 Z.ai、GLM 和 AI Engineer 现场对话放在同一条线上 7。这不是财务分析,而是开发者圈对开放模型候选池的再排序。
Garry Tan 提到的 Linzumi 则是另一种应用层信号。他说 Linzumi 像 Codex,但真正多人协作,并补充创始人 Sean Grove 曾在 OpenAI 团队参与降低 ChatGPT 的 sycophancy 11。如果把它和 Claude Tag 放在一起看,今天的高价值讨论几乎都在同一个方向上:agent 不是单人对话框,而是多人协作、可审计、能进工作流的系统。

今天该带走什么

如果你在做 AI 产品,今天最值得检查的不是首页文案,而是三件事:第一,你的产品有没有给 agent 读懂和操作的 API / CLI / 文档入口;第二,权限、记忆、企业内容和操作边界是不是产品设计的一部分;第三,模型选择有没有和任务难度、成本、eval 绑定,而不是固定写死在某个供应商上。
Karpathy 说的第三种 LLM UI 还没有完全定型。但从 Claude Tag、Box、Eve、Google Workspace CLI 到 Linzumi,今天这些推文已经给出很清楚的方向:未来的 agent 产品不会只拼聊天体验,它会拼谁能更安全、更便宜、更顺地进入真实团队。

Añade más opiniones o contexto en torno a este contenido.

  • Inicia sesión para comentar.