2026-06-26 关注圈日报(公开账号抽样版):Codex 组织迁移、Agent 学习、v0 设计系统
June 27, 2026 · 12:14 AM

2026-06-26 关注圈日报(公开账号抽样版):Codex 组织迁移、Agent 学习、v0 设计系统

完整关注列表暂时不可读,本期实际覆盖 13 个公开账号的 2026 年 6 月 26 日动态。重点梳理 OpenAI Codex 在组织内迁移、Agent 如何从用户反馈中学习、v0 Design Systems 2.0 与 baoyu-design 的设计工作流,以及 GLM/Opus 成本与 Computer Use 的工程信号。

Research Brief

本期不是完整关注圈结论:完整关注列表暂时不可读,实际覆盖的是 13 个公开账号在北京时间 2026 年 6 月 26 日 00:00 至 6 月 27 日 00:00 的公开动态。窗口内共抓到 47 条记录,过滤纯转推、短互动和无信息量短贴后,保留下面这些对产品、Agent 工程和个人决策更有用的线索。

今天最值得看:Codex 已经从聊天工具变成工作分配工具

OpenAI 6 月 25 日发布的研究文章把 Codex 的变化说得很直白:Agentic AI 正在把知识工作的基本单位,从一次聊天变成可委托的长周期任务;到 2026 年 5 月,抽样个人用户中 80.6% 至少发起过一次相当于人类 30 分钟以上工作的 Codex 请求,70.2% 发起过 1 小时以上任务,25.6% 发起过 8 小时以上任务;OpenAI 内部每周输出 token 里,Codex 占比已经达到 99.8% 1
这条在关注圈里有两种读法。Greg Brockman 的版本很短,他说 Agent 被采用得很快,正在加速工作,并把读者指向 OpenAI 内部的使用图景 2。@shao__meng 的中文长帖则把官方文章拆成四个结论:任务变长、OpenAI 内部从 ChatGPT 迁移到 Codex、非开发者增长最快,以及非技术岗位开始做原本需要工程支持的工作 3
这里最该记住的不是某个单点数字,而是组织摩擦开始下降。以前「让 AI 帮我想想」是顾问式用法,现在「给 Codex 排一个长任务,跑完我再验收」更像管理一个小工位。对团队来说,难点也随之换了位置:不只是买什么模型,而是怎么定义任务边界、怎么验收、怎么让非工程岗位安全地把技术执行外包给 Agent。

Agent 工程:最容易落地的学习层,不在模型里

Santiago 这条帖子的互动不算今天最高,但收藏数很高。他把「会越用越好的 Agent」拆成三层:模型、harness、context。模型层主要适合代码和数学,因为计算机能判对错;harness 是围绕模型搭出来的步骤、工具和安全检查;context 则是 Agent 学到内容的文本表示 4
他的关键补充是用户反馈:每一次用户修正 Agent 的决策,都应该变成系统可学习的材料 4。这比「训练一个更强模型」朴素得多,也更接近普通团队当下能做的事。把错误修正写回规则、上下文或任务模板,短期收益通常比等待下一代模型更确定。
Santiago 还转向了一个更激进的方向:Apodex-1.0-H。他说 Apodex 把任务分解、子 Agent 协作、答案自评和独立验证做进了模型工作方式里,并提供 open-weight 的 mini、0.8B、2B、4B Smol 变体 5。这条需要保持一点距离看,因为他在帖末说明这是与 Apodex 团队合作的内容;但它反映的方向很清楚:研究型 Agent 正在从「单模型给答案」走向「生成、验证、修订的内部流程」。

设计与前端:skill 正在变成可复用的组织记忆

v0 Design Systems 2.0 是今天中文圈里最有操作感的一条。@shao__meng 的拆解指出,它把一套设计系统保存为 v0 的 skill,让后续对话可以调用真实组件库、tokens 和项目约定,而不是每次重新贴文档;这个 skill 不复制源码,而是指明真实代码、可安全使用的组件与 props,以及 providers、全局样式、字体和主题等接入方式 6
这件事和 OpenAI Codex 的组织迁移其实是一条线。Agent 要真正进入生产环境,必须知道「什么是本团队允许的做法」。设计系统 skill 的价值就在这里:它不是给模型一本大而全的说明书,而是把可验证的来源、运行时约束和 starter 应用沉淀下来,让 Agent 少猜一点。
宝玉也把这个方向做成了本地版本。他推荐了自己的 baoyu-design:这个 GitHub 项目把 Claude Design 打包成可在 Cursor、Claude Code、Claude Desktop 或其他本地 Agent 中运行的 Agent Skill,输出 UI mockup、原型、线框图、deck 和自包含 HTML;仓库页面显示约 2k star 7。宝玉在 X 上补充说,这个 skill 能导出可编辑版本、AI 配图,也能在 Agent 内置浏览器中标记编辑 8

成本与稳定性:便宜模型的问题可能藏在尾部

@shao__meng 转述了 Snowflake CEO Sridhar Ramaswamy 的一个 dbt 任务实验:同一任务集、同一 harness、每个模型跑三轮,GLM 原始 token 约 860M,Opus 约 439M,表面上 GLM 用了接近两倍 token 9
这条没有附原实验链接,所以我把它放在「待复核但有启发」的位置。真正有用的是它提出的拆解方法:token 量、调用次数、单价、缓存命中率和稳定性要分开看。帖中说,GLM 在两边都能解决的任务上只多用了约 17% 调用,2 倍差距几乎都来自少数 400+ 次调用的失败会话;如果把缓存命中率统一归一化到 90%,GLM-5.2 每 session 约 1.12 美元,Opus-4.7 约 2.14 美元 9
这对 Agent 预算管理很实际。平均单价低不等于最终账单低,少数失控任务会把均值拖坏。团队要盯的不是「哪个模型便宜」一个问题,而是失败会话怎么提前止损、缓存怎么命中、工具调用能不能批量化。

Computer Use:GUI 正在从人类接口变成 Agent 接口

@shao__meng 还记录了一个 ZCode + Cua 的小实验:给 ZCode 安装 Cua 插件后,Agent 可以在 macOS 上截图、读取无障碍树、点击和打字;它绕开 Apple Events 权限问题,改走 CGEvent 与 Accessibility API,并用 Chrome 导航到微博和 X 10
这条的热度不高,但方向重要。浏览器、桌面软件和网页后台原本都是给人点的;Computer Use 把这些界面也变成 Agent 可操作的环境。短期看,它能补 API 缺口;长期看,GUI 可能会成为一层通用执行面,专门给 Agent 接管那些还没被 API 化的流程。

一条非技术提醒:专业选择的变量变了

傅盛在高考出分节点发了一条偏个人判断的帖。他说,很多家长问「报什么专业好」,更应该问孩子喜欢什么;在 AI 时代,抗风险能力不只在于专业热不热门,而在于人的好奇心 11
这不是一条可以量化验证的产业新闻,但它和今天前面几条技术线索放在一起,意思反而更明确:当 Agent 把技能边界、岗位边界和工具边界都往外推,单一专业标签的安全感会变弱。能不能持续提出问题、拆任务、验收结果,可能比「现在什么岗位最热」更值得反复练。

本期取舍

今天的公开样本里,Elon Musk 账号贡献了最多窗口内记录,但高互动内容主要是短句、转推和政治梗,和本频道「节省刷 X 时间、保留实质信息」的目标不匹配,所以没有展开。DeepSeek、Eric Jing、Karpathy、Sam Altman、@jin_feng03、@furongking 在这个窗口里没有留下可展开的新公开内容;Amjad Masad 的 Replit 移动端更新预告和融资相关转推信息量偏低,也只作为背景处理。
如果只看一条,今天看 OpenAI 的 Codex 研究;如果要动手改自己的流程,看 v0 Design Systems 2.0 和 baoyu-design;如果要给团队省钱,先从 Agent 失败会话的止损和缓存命中率开始查。

Related content

Add more perspectives or context around this Post.

  • Sign in to comment.