Codex 搬进浏览器了——AI Agent 第一次「住进」你的登录会话
OpenAI 于 5 月 7 日上线 Codex Chrome Extension,让 AI Agent 第一次直接进入用户已登录的真实浏览器会话内部工作,而非通过截图-推理-点击的「外部控制」方式。从「AI 在外面看」到「AI 进来干」,这是环境智能体(Ambient Agent)范式的产品级落地。本文拆解三层工具架构、权限渐进设计、与 Claude for Chrome 的哲学差异,以及下一个竞争战场:工作流显化界面。
Research Brief

昨天最火的是这个
5 月 7 日,OpenAI 悄悄在 Chrome Web Store 上架了 Codex Chrome Extension(v1.1.4)1。72 小时内,MacRumors、Engadget、Digital Trends、The New Stack 集中报道,Twitter 上出现 8 种语言的讨论,YouTube 冒出 10+ 个 Demo 视频。
OpenAI 员工 VB Srivastav 发布了一条演示推文:Codex 全自动从 Gmail 下载发票、更新 Drive 表格、填写报销系统表单,全程约 20 分钟,无需人工干预2。这条推文获得 4.4 万浏览,是本次发布相关讨论里互动最高的一条。
OpenAI 官方数据:Codex 周活跃用户已超 400 万,年初至今增长 8 倍1。
热度的背后,是一个被反复提起的判断:这不是「Codex 加了个浏览器插件」,而是 AI Agent 和浏览器关系的一次范式级改变。
「外面看」变成「里面干」
要理解这款产品的创新,得先说清楚之前的方式有什么问题。
传统的 Computer Use 方案(Anthropic 等)让 Agent 操作浏览器的流程是:截图 → 视觉推理 → 模拟鼠标点击。Agent 始终站在浏览器「外部」,通过看截图来理解界面,再「盲打」式地模拟操作。这种方案有一个根本性的上限:它无法访问需要登录的内容。Gmail 收件箱、公司内部 Salesforce、团队 Notion,Agent 永远进不去。
Codex Chrome Extension 的做法不同3:扩展直接接入 Chrome DevTools Protocol,Agent 可以读写 DOM、执行 JavaScript、在已认证的会话里直接操作。它不需要「看」界面,就像一个登录了你账号的程序员在直接操作。
更关键的一个设计细节是:Codex 的操作被隔离在独立的标签组中,不会接管用户正在用的活跃标签页。你在前台看视频或刷文档,后台的 Codex 在另一组标签里处理报销表单,互不干扰3。
中文社区有一条评论把这个变化说得很准。「不滑锅」写道:「浏览器第一次成了 AI 的宿主。从『显示网页的东西』变成『承载 AI 和人协同工作的空间』。」4

可借鉴洞察: 大多数 AI 产品的集成方案,是给 AI 提供一个「观察窗」——截图、API 轮询、数据导出。Codex Chrome 的思路是让 AI 直接「入住」用户的工作环境。当你设计 AI 集成时,「让 AI 直接操作用户已有的工作流上下文」和「再给 AI 一个导出接口」,两条路通往完全不同的用户体验。
三层架构:让 Agent 用「人类的工具」
Codex Chrome Extension 在 OpenAI 体系里的位置,不是全局兜底方案,而是第二优先级工具3。
具体的分层策略是:
- 专用插件优先(Drive & Sheets 插件、Gmail 插件):通过结构化 API 操作,精确高效
- Chrome Extension 次之:当目标网站有登录会话但没有专用插件时使用
- 内置浏览器兜底:处理 localhost 开发环境、无需登录的公开网页

这个三层模型背后有一个明确的产品理念:让 Agent 和人类使用同一套工具,而不是给 Agent 单独建一套「AI 专用接口」。
The New Stack 报道中,OpenAI 开发者体验负责人 Dominik Kundel 解释这个设计时说,目标是让 Codex 能用人类日常工作中真正在用的那些工具,而不是要求所有 SaaS 厂商都为 AI 特别开发 API5。
可借鉴洞察: 这是一个典型的「降低集成成本」设计。给 AI 单独开接口,意味着每一个集成点都需要新的开发工作;让 AI 用已有的 Chrome Session,意味着用户已经登录的几千个 SaaS 工具,全部自动「兼容」了。这种策略直接影响产品的可集成范围——下次设计 AI 功能时,「如何让 AI 复用已有权限和界面」值得优先于「如何给 AI 建专用入口」来思考。
权限设计:广而有据,还是广而失控
Codex Chrome Extension 被批评最多的地方,也是它最值得分析的设计决策之一:权限申请范围非常广。
它请求的权限包括:Chrome 调试器访问(Chrome Debugger API)、读写所有网站数据、浏览历史、书签6。安全研究员 Alex Korn 把这列成风险清单:「调试器访问可以读取页面内存,浏览历史暴露敏感遥测,allowlist 一次懒惰审批可以永久暴露内部仪表盘。」7
OpenAI 对权限问题的回应体现在两个层面8:
第一,在沙箱和内部部署层面,有允许/拒绝域名列表、OS keyring 凭证存储、OpenTelemetry 原生遥测等安全机制。
第二,在用户端交互层面,采用「逐站域名确认」设计:每次访问新网站前弹出询问(「始终允许此站点」vs「仅本次」),而不是一次性授权所有网站。

这是一个典型的「广权限 + 细粒度确认」组合拳。Agent 需要广权限才能工作,但用户信任的建立不能靠「一次全给」——Codex 的做法是把权限决策分散到每一个新场景,在任务执行过程中即时建立信任,而不是在安装时一次性请求全部权限。
值得一提的对照是:Anthropic 公开了 Claude for Chrome 在 prompt injection 攻防上的红队数据(23.6% 降至 11.2%),OpenAI 目前还没有公开类似数据6。
可借鉴洞察: 设计高权限 AI 功能时,「一次性全量授权」和「按场景渐进授权」对用户信任的影响截然不同。后者虽然摩擦更多,但每次确认都是一次「用户主动选择」,累积起来的信任感更稳固——尤其是在 Agent 有能力出错的场景里。
后台自主 vs 前台协作:两条不同的路
Codex for Chrome 和 Claude for Chrome 几乎同时出现,形成了一个天然的设计对照组9。
| 维度 | Codex for Chrome | Claude for Chrome |
|---|---|---|
| 操作模式 | 后台多标签页自主完成 | 前台侧边栏与用户协作 |
| 任务类型 | 完整工作流(报销、数据录入) | 辅助用户完成当前任务 |
| 多标签后台操作 | ✅ | ❌ |
| EU/UK 可用 | ❌ | ✅ |
| prompt injection 红队数据 | 未公开 | 已公开(23.6% → 11.2%) |
两条路对应两种根本不同的 Agent 设计哲学:Claude 的模型是「增强人」——AI 在你旁边,你不离开驾驶座;Codex 的模型是「委托 AI」——你交出任务,AI 全程独立执行。
前者摩擦小,但 AI 能做的事有限;后者能处理完整工作流,但失控的风险也更集中。Reddit 社区对此有很直接的讨论:有用户称 Codex + GPT-5.5 相当于「75 人团队」,同时也有人在问「如果 Agent 在你的 Salesforce 里出错了怎么办」10。
真正的瓶颈不是模型,是「你能不能说清楚自己要什么」
AI 工作流分析师 Nate B. Jones 在他的 newsletter 里提了一个让人印象深刻的框架11:
GPT-5.5 让 Codex 在 Terminal-Bench 2.0 的得分从 75.1% 升至 82.7%,模型能力已经到了一个相当高的水位。但他观察到,用 Codex 处理真实工作流时,卡壳的地方往往不是「模型不够聪明」,而是**「人类描述不清楚自己的工作流」**。
他给出的警示很直白:「更强的模型 + 模糊的工作流描述 = 更快更自信地犯错。」
这意味着 AI 产品的下一个竞争点,可能既不是参数规模,也不是 benchmark,而是**「帮助用户把隐性工作流显化并交给 AI」的界面**——工作流录制、意图捕捉、任务分解。Reddit 一位用户分享了实战经验:Codex 长期自动化任务里,Agent 每次从零开始,会重复处理已入库内容;他的解决方案是配一个轻量 KV 存储 + 24 小时滚动哈希10。这本质上是用户在手动做「工作流状态管理」,而这恰恰是一个明显的产品机会点。
今天这个产品给了我什么
Codex Chrome Extension 最值得反复琢磨的,不是它的功能列表,而是它选了一个完全不同的集成思路:与其给 AI 建一个「观察用的 API 接口」,不如让 AI 直接进入用户已经信任的工作环境。
这种思路对产品设计有一个延伸的启示:AI 功能的集成点,往往比 AI 本身的能力更决定用户体验。「AI 能做什么」是上限,「AI 从哪里获取上下文、能接触哪些工具」才是实际发挥了多少。
当前 Codex Chrome 还有明显的稳定性问题(间歇性连接失败、不支持 Linux 和 Brave、EU/UK 暂时不可用3),加上 OpenAI 品牌体系的混乱(Codex 同时是模型族名、独立 App、VSCode 扩展和 Chrome 扩展),都是产品层面还没解决的问题。但「让 Agent 进入已登录的真实浏览器会话」这个核心范式,已经开始影响其他团队怎么思考 Agent 的集成路径。
References
- 1MacRumors: OpenAI Codex Now Works in Chrome
- 2Twitter: VB Srivastav Codex reimbursement demo
- 3Verdent AI: Codex Chrome Extension Explained
- 4Twitter: 不滑锅 Codex
- 5The New Stack: OpenAI Codex arrives in Chrome
- 6Digital Trends: OpenAI Codex moved into Chrome
- 7Twitter: Alex Korn security analysis
- 8OpenAI: Running Codex Safely
- 9Verdent AI: Codex Chrome vs Claude for Chrome
- 10Reddit: r/OpenAI Codex usage thread
- 11Nate's Newsletter - Codex Plugins bottleneck
Add more perspectives or context around this content.