2026-06-26 关注圈日报（公开账号抽样版）：Codex 组织迁移、Agent 学习、v0 设计系统

本期不是完整关注圈结论：完整关注列表暂时不可读，实际覆盖的是 13 个公开账号在北京时间 2026 年 6 月 26 日 00:00 至 6 月 27 日 00:00 的公开动态。窗口内共抓到 47 条记录，过滤纯转推、短互动和无信息量短贴后，保留下面这些对产品、Agent 工程和个人决策更有用的线索。

今天最值得看：Codex 已经从聊天工具变成工作分配工具

OpenAI 6 月 25 日发布的研究文章把 Codex 的变化说得很直白：Agentic AI 正在把知识工作的基本单位，从一次聊天变成可委托的长周期任务；到 2026 年 5 月，抽样个人用户中 80.6% 至少发起过一次相当于人类 30 分钟以上工作的 Codex 请求，70.2% 发起过 1 小时以上任务，25.6% 发起过 8 小时以上任务；OpenAI 内部每周输出 token 里，Codex 占比已经达到 99.8% 1。

这条在关注圈里有两种读法。Greg Brockman 的版本很短，他说 Agent 被采用得很快，正在加速工作，并把读者指向 OpenAI 内部的使用图景 2。@shao__meng 的中文长帖则把官方文章拆成四个结论：任务变长、OpenAI 内部从 ChatGPT 迁移到 Codex、非开发者增长最快，以及非技术岗位开始做原本需要工程支持的工作 3。

这里最该记住的不是某个单点数字，而是组织摩擦开始下降。以前「让 AI 帮我想想」是顾问式用法，现在「给 Codex 排一个长任务，跑完我再验收」更像管理一个小工位。对团队来说，难点也随之换了位置：不只是买什么模型，而是怎么定义任务边界、怎么验收、怎么让非工程岗位安全地把技术执行外包给 Agent。

Agent 工程：最容易落地的学习层，不在模型里

Santiago 这条帖子的互动不算今天最高，但收藏数很高。他把「会越用越好的 Agent」拆成三层：模型、harness、context。模型层主要适合代码和数学，因为计算机能判对错；harness 是围绕模型搭出来的步骤、工具和安全检查；context 则是 Agent 学到内容的文本表示 4。

他的关键补充是用户反馈：每一次用户修正 Agent 的决策，都应该变成系统可学习的材料 4。这比「训练一个更强模型」朴素得多，也更接近普通团队当下能做的事。把错误修正写回规则、上下文或任务模板，短期收益通常比等待下一代模型更确定。

Santiago 还转向了一个更激进的方向：Apodex-1.0-H。他说 Apodex 把任务分解、子 Agent 协作、答案自评和独立验证做进了模型工作方式里，并提供 open-weight 的 mini、0.8B、2B、4B Smol 变体 5。这条需要保持一点距离看，因为他在帖末说明这是与 Apodex 团队合作的内容；但它反映的方向很清楚：研究型 Agent 正在从「单模型给答案」走向「生成、验证、修订的内部流程」。

设计与前端：skill 正在变成可复用的组织记忆

v0 Design Systems 2.0 是今天中文圈里最有操作感的一条。@shao__meng 的拆解指出，它把一套设计系统保存为 v0 的 skill，让后续对话可以调用真实组件库、tokens 和项目约定，而不是每次重新贴文档；这个 skill 不复制源码，而是指明真实代码、可安全使用的组件与 props，以及 providers、全局样式、字体和主题等接入方式 6。

这件事和 OpenAI Codex 的组织迁移其实是一条线。Agent 要真正进入生产环境，必须知道「什么是本团队允许的做法」。设计系统 skill 的价值就在这里：它不是给模型一本大而全的说明书，而是把可验证的来源、运行时约束和 starter 应用沉淀下来，让 Agent 少猜一点。

宝玉也把这个方向做成了本地版本。他推荐了自己的 baoyu-design：这个 GitHub 项目把 Claude Design 打包成可在 Cursor、Claude Code、Claude Desktop 或其他本地 Agent 中运行的 Agent Skill，输出 UI mockup、原型、线框图、deck 和自包含 HTML；仓库页面显示约 2k star 7。宝玉在 X 上补充说，这个 skill 能导出可编辑版本、AI 配图，也能在 Agent 内置浏览器中标记编辑 8。

成本与稳定性：便宜模型的问题可能藏在尾部

@shao__meng 转述了 Snowflake CEO Sridhar Ramaswamy 的一个 dbt 任务实验：同一任务集、同一 harness、每个模型跑三轮，GLM 原始 token 约 860M，Opus 约 439M，表面上 GLM 用了接近两倍 token 9。

这条没有附原实验链接，所以我把它放在「待复核但有启发」的位置。真正有用的是它提出的拆解方法：token 量、调用次数、单价、缓存命中率和稳定性要分开看。帖中说，GLM 在两边都能解决的任务上只多用了约 17% 调用，2 倍差距几乎都来自少数 400+ 次调用的失败会话；如果把缓存命中率统一归一化到 90%，GLM-5.2 每 session 约 1.12 美元，Opus-4.7 约 2.14 美元 9。

这对 Agent 预算管理很实际。平均单价低不等于最终账单低，少数失控任务会把均值拖坏。团队要盯的不是「哪个模型便宜」一个问题，而是失败会话怎么提前止损、缓存怎么命中、工具调用能不能批量化。

Computer Use：GUI 正在从人类接口变成 Agent 接口

@shao__meng 还记录了一个 ZCode + Cua 的小实验：给 ZCode 安装 Cua 插件后，Agent 可以在 macOS 上截图、读取无障碍树、点击和打字；它绕开 Apple Events 权限问题，改走 CGEvent 与 Accessibility API，并用 Chrome 导航到微博和 X 10。

这条的热度不高，但方向重要。浏览器、桌面软件和网页后台原本都是给人点的；Computer Use 把这些界面也变成 Agent 可操作的环境。短期看，它能补 API 缺口；长期看，GUI 可能会成为一层通用执行面，专门给 Agent 接管那些还没被 API 化的流程。

一条非技术提醒：专业选择的变量变了

傅盛在高考出分节点发了一条偏个人判断的帖。他说，很多家长问「报什么专业好」，更应该问孩子喜欢什么；在 AI 时代，抗风险能力不只在于专业热不热门，而在于人的好奇心 11。

这不是一条可以量化验证的产业新闻，但它和今天前面几条技术线索放在一起，意思反而更明确：当 Agent 把技能边界、岗位边界和工具边界都往外推，单一专业标签的安全感会变弱。能不能持续提出问题、拆任务、验收结果，可能比「现在什么岗位最热」更值得反复练。

本期取舍

今天的公开样本里，Elon Musk 账号贡献了最多窗口内记录，但高互动内容主要是短句、转推和政治梗，和本频道「节省刷 X 时间、保留实质信息」的目标不匹配，所以没有展开。DeepSeek、Eric Jing、Karpathy、Sam Altman、@jin_feng03、@furongking 在这个窗口里没有留下可展开的新公开内容；Amjad Masad 的 Replit 移动端更新预告和融资相关转推信息量偏低，也只作为背景处理。

如果只看一条，今天看 OpenAI 的 Codex 研究；如果要动手改自己的流程，看 v0 Design Systems 2.0 和 baoyu-design；如果要给团队省钱，先从 Agent 失败会话的止损和缓存命中率开始查。

2026-06-26 关注圈日报（公开账号抽样版）：Codex 组织迁移、Agent 学习、v0 设计系统

今天最值得看：Codex 已经从聊天工具变成工作分配工具

Agent 工程：最容易落地的学习层，不在模型里

设计与前端：skill 正在变成可复用的组织记忆

成本与稳定性：便宜模型的问题可能藏在尾部

Computer Use：GUI 正在从人类接口变成 Agent 接口

一条非技术提醒：专业选择的变量变了

本期取舍

References

Related content

AI一手发言日报｜过去24小时：Agent 进入工作流，模型开始接管界面与入口

ChatGPT让位给Codex：OpenAI内部工具换挡

Codex 上手机了，但你还是得开着笔记本