Codex 搬进浏览器了——AI Agent 第一次「住进」你的登录会话

图片来自：Verdent AI: Codex Chrome vs Claude for Chrome

昨天最火的是这个

5 月 7 日，OpenAI 悄悄在 Chrome Web Store 上架了 Codex Chrome Extension（v1.1.4）1。72 小时内，MacRumors、Engadget、Digital Trends、The New Stack 集中报道，Twitter 上出现 8 种语言的讨论，YouTube 冒出 10+ 个 Demo 视频。

OpenAI 员工 VB Srivastav 发布了一条演示推文：Codex 全自动从 Gmail 下载发票、更新 Drive 表格、填写报销系统表单，全程约 20 分钟，无需人工干预2。这条推文获得 4.4 万浏览，是本次发布相关讨论里互动最高的一条。

OpenAI 官方数据：Codex 周活跃用户已超 400 万，年初至今增长 8 倍1。

热度的背后，是一个被反复提起的判断：这不是「Codex 加了个浏览器插件」，而是 AI Agent 和浏览器关系的一次范式级改变。

「外面看」变成「里面干」

要理解这款产品的创新，得先说清楚之前的方式有什么问题。

传统的 Computer Use 方案（Anthropic 等）让 Agent 操作浏览器的流程是：截图 → 视觉推理 → 模拟鼠标点击。Agent 始终站在浏览器「外部」，通过看截图来理解界面，再「盲打」式地模拟操作。这种方案有一个根本性的上限：它无法访问需要登录的内容。Gmail 收件箱、公司内部 Salesforce、团队 Notion，Agent 永远进不去。

Codex Chrome Extension 的做法不同3：扩展直接接入 Chrome DevTools Protocol，Agent 可以读写 DOM、执行 JavaScript、在已认证的会话里直接操作。它不需要「看」界面，就像一个登录了你账号的程序员在直接操作。

更关键的一个设计细节是：Codex 的操作被隔离在独立的标签组中，不会接管用户正在用的活跃标签页。你在前台看视频或刷文档，后台的 Codex 在另一组标签里处理报销表单，互不干扰3。

中文社区有一条评论把这个变化说得很准。「不滑锅」写道：「浏览器第一次成了 AI 的宿主。从『显示网页的东西』变成『承载 AI 和人协同工作的空间』。」4

图片来自：Verdent AI: Codex Chrome Extension Explained

可借鉴洞察： 大多数 AI 产品的集成方案，是给 AI 提供一个「观察窗」——截图、API 轮询、数据导出。Codex Chrome 的思路是让 AI 直接「入住」用户的工作环境。当你设计 AI 集成时，「让 AI 直接操作用户已有的工作流上下文」和「再给 AI 一个导出接口」，两条路通往完全不同的用户体验。

三层架构：让 Agent 用「人类的工具」

Codex Chrome Extension 在 OpenAI 体系里的位置，不是全局兜底方案，而是第二优先级工具3。

具体的分层策略是：

专用插件优先（Drive & Sheets 插件、Gmail 插件）：通过结构化 API 操作，精确高效
Chrome Extension 次之：当目标网站有登录会话但没有专用插件时使用
内置浏览器兜底：处理 localhost 开发环境、无需登录的公开网页

图片来自：Verdent AI: Codex Chrome Extension Explained

这个三层模型背后有一个明确的产品理念：让 Agent 和人类使用同一套工具，而不是给 Agent 单独建一套「AI 专用接口」。

The New Stack 报道中，OpenAI 开发者体验负责人 Dominik Kundel 解释这个设计时说，目标是让 Codex 能用人类日常工作中真正在用的那些工具，而不是要求所有 SaaS 厂商都为 AI 特别开发 API5。

可借鉴洞察： 这是一个典型的「降低集成成本」设计。给 AI 单独开接口，意味着每一个集成点都需要新的开发工作；让 AI 用已有的 Chrome Session，意味着用户已经登录的几千个 SaaS 工具，全部自动「兼容」了。这种策略直接影响产品的可集成范围——下次设计 AI 功能时，「如何让 AI 复用已有权限和界面」值得优先于「如何给 AI 建专用入口」来思考。

权限设计：广而有据，还是广而失控

Codex Chrome Extension 被批评最多的地方，也是它最值得分析的设计决策之一：权限申请范围非常广。

它请求的权限包括：Chrome 调试器访问（Chrome Debugger API）、读写所有网站数据、浏览历史、书签6。安全研究员 Alex Korn 把这列成风险清单：「调试器访问可以读取页面内存，浏览历史暴露敏感遥测，allowlist 一次懒惰审批可以永久暴露内部仪表盘。」7

OpenAI 对权限问题的回应体现在两个层面8：

第一，在沙箱和内部部署层面，有允许/拒绝域名列表、OS keyring 凭证存储、OpenTelemetry 原生遥测等安全机制。

第二，在用户端交互层面，采用「逐站域名确认」设计：每次访问新网站前弹出询问（「始终允许此站点」vs「仅本次」），而不是一次性授权所有网站。

图片来自：Verdent AI: Codex Chrome Extension Explained

这是一个典型的「广权限 + 细粒度确认」组合拳。Agent 需要广权限才能工作，但用户信任的建立不能靠「一次全给」——Codex 的做法是把权限决策分散到每一个新场景，在任务执行过程中即时建立信任，而不是在安装时一次性请求全部权限。

值得一提的对照是：Anthropic 公开了 Claude for Chrome 在 prompt injection 攻防上的红队数据（23.6% 降至 11.2%），OpenAI 目前还没有公开类似数据6。

可借鉴洞察： 设计高权限 AI 功能时，「一次性全量授权」和「按场景渐进授权」对用户信任的影响截然不同。后者虽然摩擦更多，但每次确认都是一次「用户主动选择」，累积起来的信任感更稳固——尤其是在 Agent 有能力出错的场景里。

后台自主 vs 前台协作：两条不同的路

Codex for Chrome 和 Claude for Chrome 几乎同时出现，形成了一个天然的设计对照组9。

维度	Codex for Chrome	Claude for Chrome
操作模式	后台多标签页自主完成	前台侧边栏与用户协作
任务类型	完整工作流（报销、数据录入）	辅助用户完成当前任务
多标签后台操作	✅	❌
EU/UK 可用	❌	✅
prompt injection 红队数据	未公开	已公开（23.6% → 11.2%）

两条路对应两种根本不同的 Agent 设计哲学：Claude 的模型是「增强人」——AI 在你旁边，你不离开驾驶座；Codex 的模型是「委托 AI」——你交出任务，AI 全程独立执行。

前者摩擦小，但 AI 能做的事有限；后者能处理完整工作流，但失控的风险也更集中。Reddit 社区对此有很直接的讨论：有用户称 Codex + GPT-5.5 相当于「75 人团队」，同时也有人在问「如果 Agent 在你的 Salesforce 里出错了怎么办」10。

真正的瓶颈不是模型，是「你能不能说清楚自己要什么」

AI 工作流分析师 Nate B. Jones 在他的 newsletter 里提了一个让人印象深刻的框架11：

GPT-5.5 让 Codex 在 Terminal-Bench 2.0 的得分从 75.1% 升至 82.7%，模型能力已经到了一个相当高的水位。但他观察到，用 Codex 处理真实工作流时，卡壳的地方往往不是「模型不够聪明」，而是**「人类描述不清楚自己的工作流」**。

他给出的警示很直白：「更强的模型 + 模糊的工作流描述 = 更快更自信地犯错。」

这意味着 AI 产品的下一个竞争点，可能既不是参数规模，也不是 benchmark，而是**「帮助用户把隐性工作流显化并交给 AI」的界面**——工作流录制、意图捕捉、任务分解。Reddit 一位用户分享了实战经验：Codex 长期自动化任务里，Agent 每次从零开始，会重复处理已入库内容；他的解决方案是配一个轻量 KV 存储 + 24 小时滚动哈希10。这本质上是用户在手动做「工作流状态管理」，而这恰恰是一个明显的产品机会点。

今天这个产品给了我什么

Codex Chrome Extension 最值得反复琢磨的，不是它的功能列表，而是它选了一个完全不同的集成思路：与其给 AI 建一个「观察用的 API 接口」，不如让 AI 直接进入用户已经信任的工作环境。

这种思路对产品设计有一个延伸的启示：AI 功能的集成点，往往比 AI 本身的能力更决定用户体验。「AI 能做什么」是上限，「AI 从哪里获取上下文、能接触哪些工具」才是实际发挥了多少。

当前 Codex Chrome 还有明显的稳定性问题（间歇性连接失败、不支持 Linux 和 Brave、EU/UK 暂时不可用3），加上 OpenAI 品牌体系的混乱（Codex 同时是模型族名、独立 App、VSCode 扩展和 Chrome 扩展），都是产品层面还没解决的问题。但「让 Agent 进入已登录的真实浏览器会话」这个核心范式，已经开始影响其他团队怎么思考 Agent 的集成路径。

封面图：图片来自 Verdent AI: Codex Chrome vs Claude for Chrome

Codex 搬进浏览器了——AI Agent 第一次「住进」你的登录会话

昨天最火的是这个

「外面看」变成「里面干」

三层架构：让 Agent 用「人类的工具」

权限设计：广而有据，还是广而失控

后台自主 vs 前台协作：两条不同的路

真正的瓶颈不是模型，是「你能不能说清楚自己要什么」

今天这个产品给了我什么

References