6月29日 AI 科技商业选题：Agent 进流程，模型看边界 (2026)

今天的五个信号，不是同一种热闹：一个是「开放权重模型在安全基准里打出反常识结果」，一个是「AI 编程代理的权限边界被开发者重新追问」，一个是「物流服务开始真的被 Agent 接管入口」，另外两个是「GitHub 上跑出来的垂直 Agent 工作流」。这几类素材放在一起，适合做一条判断：AI 的商业选题正在从「谁的模型更强」转向「谁把 Agent 放进了真实流程」。

覆盖窗口按北京时间 2026-06-26 08:00 至 2026-06-29 08:00 判断。少数条目不是窗口内首发，但在窗口内因 Hacker News 或 GitHub Trending 重新成为高讨论信号，因此按「重新爆发的内容选题」处理。

优先级	话题分类	选题标题	主要信号	推荐形态
1	模型能力 + 安全	GLM 5.2 在安全基准里压过 Claude，真正要讲的是「模型 vs 工具链」	Hacker News 将 Semgrep 的 GLM 5.2 安全基准讨论推到 347 分、160 条评论；Semgrep 文中给出的 IDOR 检测 F1 是 GLM 5.2 39%、Claude Code 37%<cite index="1" title="GLM 5.2 beats Claude in our benchmarks " url=" Hacker News	https://news.ycombinator.com/item?id=48709670" />2
2	AI 编程代理安全	OpenAI Codex 的「敏感文件忽略」议题，适合讲 Agent 的默认信任边界	这个 GitHub issue 要求提供 repo 级和全局级的 ignore 机制，避免 Agent 读取或发送 `.env`、私钥、`.aws/`、`.ssh/` 等敏感路径；HN 讨论在窗口内重新冲到 172 分、118 条评论<cite index="3" title="A way to exclude sensitive files issue still open for OpenAI Codex " url=" Hacker News	https://news.ycombinator.com/item?id=48706714" />4
3	AI 应用产品	京东快递接入微信 AI Agent，普通人第一次能感到「对话即服务」	新京报 6 月 26 日实测称，用户在微信 AI Agent 中说「帮我寄快递」后，可唤起京东快递小程序入口；传统线上寄件约 2-3 分钟，对话式寄件可压到约 30 秒5	短视频优先，适合真人实测
4	开源 Agent 工作流	AI Berkshire 爆红：把投资大师方法论包装成 Claude Code / Codex 工作流	GitHub 日榜显示 xbtlin/ai-berkshire 位列第 4，今日新增 1,445 stars；仓库定位是基于 Claude Code / Codex 的价值投资研究框架，包含多 Agent 并行研究6 7	长视频更稳，短视频可切「一个人变投研团队」
5	创作者工具 + 开源	video-use：让 Coding Agent 去剪视频，创作者工具链有新叙事	GitHub 日榜显示 browser-use/video-use 位列第 13，今日新增 196 stars；仓库主张用 Claude Code 等编码代理编辑视频，并把流程组织为 Transcribe → Pack → LLM Reasons → EDL → Render → Self-Eval6 8	短视频 + 屏录演示，后续可扩成长测

1. GLM 5.2 打到安全圈：不要只讲「国产模型赢了 Claude」

**发生了什么：**Semgrep 的安全团队在一篇 6 月 22 日文章中测试 IDOR 漏洞检测任务。文章称 GLM 5.2 是开放权重 MoE 模型，总参数约 750B、单 token 激活约 40B、上下文窗口 1M；在相同最小提示词和基础框架下，GLM 5.2 的 IDOR 检测 F1 为 39%，高于 Claude Code 的 37%2。HN 窗口内讨论热度很高，说明开发者对「开放权重模型能不能进入安全工作流」很敏感1。

**为什么值得讲：**这个选题不能拍成简单的民族情绪或模型榜单。更值得讲的是 Semgrep 自己的结论：在漏洞检测里，外围 harness、端点发现、任务拆解和执行框架的影响可能比模型本体更大2。内容角度应落在「便宜、可本地部署的开放权重模型，什么时候足够进入企业安全流程」。

**推荐形态：**8-12 分钟长视频。结构可以是「一个反常识结果 → 为什么不能直接下结论 → 模型、工具链、成本和数据安全四个变量」。短视频只适合做引流，标题要留出限定条件。

推荐标题：「GLM 5.2 真的赢了 Claude 吗？这条安全基准里，模型不是唯一主角」

开头钩子：「如果一个开放权重模型在安全漏洞检测里打过 Claude，你第一反应可能是模型格局变了。但 Semgrep 这篇文章真正要命的地方，是它把『模型能力』和『工具链能力』拆开了。」

**需要补查：**GLM 5.2 权重、API 定价与商业授权；Semgrep 测试数据集是否公开；其他漏洞类型是否有复测；国内安全团队是否已经尝试本地部署。

2. Codex 的敏感文件问题：AI 编程代理的「默认可读」会变成企业采购门槛

**发生了什么：**OpenAI Codex 仓库里，一个 issue 要求新增 repo-local .codexignore 和全局 ignore 文件，明确标记 Agent 不应读取或发送给模型的路径，例如 .env、.env.*、*.pem、.aws/**、.ssh/** 等4。这个 issue 本身不是新开的，但 HN 在窗口内重新把它顶到 172 分、118 条评论3。

**为什么值得讲：**AI 编程工具的最大阻力，往往不是「能不能写代码」，而是「它默认能看见什么」。企业真正关心的是：Agent 会不会读到密钥、凭证、客户数据、未公开代码；团队能不能把禁止读取的规则写进仓库并复用；安全审计能不能解释每一次访问。

**推荐形态：**长视频或图文都适合。短视频可做「你以为 Agent 只是在帮你写代码，其实它可能先读完你的仓库」。但最好不要危言耸听，要把核心讲成权限模型、ignore 规则和审计能力。

推荐标题：「AI 写代码之前，先回答一个问题：它有没有权利读你的 .env？」

开头钩子：「开发者给 Codex 提的不是一个小功能，而是企业用 AI 编程代理前必须回答的安全问题：哪些文件，模型永远不能看？」

**需要补查：**Codex 当前 sandbox 与权限配置文档；Claude Code、Cursor、其他 coding agent 是否已有类似 ignore 机制；真实企业安全规范如何要求密钥、凭证和代码上下文隔离。

3. 京东快递 Agent 全托管：这条适合拍给普通人看

**发生了什么：**新京报 6 月 26 日实测称，用户在微信 AI Agent 中说「帮我寄快递」后，系统可识别寄件需求并唤起京东快递小程序入口，省掉搜索、跳转和多页面点击；传统线上寄件约 2-3 分钟，对话式寄件可压缩到约 30 秒5。京东快递还提到，后续会把国际寄递、售后咨询、优惠类型选择等场景纳入 Agent 能力5。

**为什么值得讲：**过去很多 Agent 选题只停在办公、编程和客服演示，普通人看完没有体感。寄快递是高频、低风险、流程明确的服务，刚好能让用户理解「对话入口」的价值：不是 App 多了一个聊天框，而是服务从菜单里被拉到对话里。

**推荐形态：**短视频优先。用真人实测拍法最有效：同一个寄件任务，一边走传统小程序路径，一边走微信 AI Agent 路径，最后对比步骤数、耗时和失败点。

推荐标题：「微信里说一句话就能寄快递？京东这次把 Agent 做成了真实服务入口」

开头钩子：「以前寄快递，你要打开小程序、填地址、选服务、约时间。现在你只说『帮我寄快递』，AI 直接把服务入口叫出来。」

**需要补查：**内测资格范围；微信「小微」与第三方 Agent 接入规则；真实下单是否支持地址纠错、价格确认、取消订单和售后；老年用户使用成功率。

4. AI Berkshire：最值得拆的不是投资，而是「方法论产品化」

**发生了什么：**GitHub Trending 日榜里，xbtlin/ai-berkshire 位列第 4，今日新增 1,445 stars6。仓库把自己定义为「AI 时代的价值投资研究框架」，兼容 Claude Code 与 Codex，主打四位价值投资人物方法论和多 Agent 并行研究7。

**为什么值得讲：**不要把这条拍成投资建议。真正的传播点是：创作者、分析师、知识工作者正在把自己的方法论包装成 Agent 可执行的 Skill。以前课程卖的是「我怎么想」，现在开源项目卖的是「把我的分析流程装进你的工具」。这背后是一个更大的商业问题：专业方法论会不会变成可复制、可安装、可比较的工作流商品。

**推荐形态：**长视频更稳。可以用「投研」做例子，但主题放在「一个人如何用多 Agent 复制团队分工」。短视频可以切一个更尖锐的角度：「以后知识付费卖的不是课，是一包 Agent workflow」。

推荐标题：「AI Berkshire 爆火：知识工作者的新商品，可能是一套可安装的工作流」

开头钩子：「这个项目表面上是 AI 做投资研究，但它真正有意思的是：它把四套投资方法论拆成了 Claude Code 和 Codex 可以执行的流程。」

**需要补查：**项目作者背景；实际分析样例质量；是否有稳定数据源和合规提示；是否能迁移到法务、咨询、产品调研等非金融场景。

5. video-use：AI 剪视频的新角度，不是「生成视频」，而是「把剪辑流程交给 Agent」

**发生了什么：**GitHub Trending 日榜里，browser-use/video-use 位列第 13，今日新增 196 stars6。仓库介绍称，它支持用 Claude Code 等编码代理编辑视频，流程是 Transcribe → Pack → LLM Reasons → EDL → Render → Self-Eval；功能包括剪掉 filler words、自动调色、字幕样式、动画覆盖层和剪切边界自评估8。

**为什么值得讲：**创作者赛道里，「AI 生成视频」已经很挤，但「AI 接管剪辑流水线」更接近真实生产。它不是让模型凭空生成一条片，而是把素材、转录、剪点、渲染和复查变成 Agent 能调用的结构化流程。对内容团队来说，这条比单纯炫模型更有落地感。

**推荐形态：**短视频 + 屏录演示。先展示一堆原始素材，再用自然语言给 Agent 下剪辑需求，最后展示 final.mp4。如果要做长视频，应重点测失败场景：多说话人、噪声、错别字字幕、剪切节奏和重渲成本。

推荐标题：「不是 AI 生成视频，而是让 Agent 接管剪辑台：video-use 为什么值得创作者盯一下」

开头钩子：「如果你把一堆素材丢给 Claude Code，让它自己转录、找剪点、生成 EDL、渲染并自检，剪辑师的工作会先被替代哪一段？」

**需要补查：**安装门槛；ElevenLabs 与 ffmpeg 依赖；中文素材表现；长视频素材的 token 与转录成本；能否稳定接入现有剪辑软件工作流。

今日主编判断

最适合马上做短视频的是京东快递 Agent，因为它有普通人能理解的前后对比，也有具体场景和操作路径。最适合做长视频的是 GLM 5.2 安全基准和 Codex 敏感文件问题，前者能讲模型与工具链的边界，后者能讲企业部署 AI 编程代理的风险门槛。

两个 GitHub 项目适合做「观察型」内容：AI Berkshire 讲方法论如何产品化，video-use 讲创作者流程如何被 Agent 化。它们未必都能成为大众热点，但很适合给科技商业受众判断下一批工具机会在哪里。

References

1GLM 5.2 beats Claude in our benchmarks \
2We have Mythos at Home: GLM 5.2 beats Claude in our Cyber Benchmarks
3A way to exclude sensitive files issue still open for OpenAI Codex \
4A way to exclude sensitive files · Issue #2847 · openai/codex · GitHub
5京东快递上线「Agent全托管服务」，记者实测对话可下单发快递
6Trending repositories on GitHub today
7xbtlin/ai-berkshire: AI 时代的价值投资研究框架
8browser-use/video-use: Edit videos with coding agents