2026-06-30 关注圈日报（公开账号抽样版）：Claude Code From Scratch、LongCat-2.0、Agent 工程闭环

覆盖说明：完整关注列表暂时不可读，本期不是 @jin_feng03 关注圈全量版。实际覆盖 13 个公开账号在北京时间 6 月 30 日 00:00 至 7 月 1 日 00:00 的动态，筛掉纯转发、短回复、政治争议和无正文链接后，保留 9 条能展开的技术与产品信号。

今天的主线

今天最密集的线索不是新模型本身，而是 Agent 怎么被真正用起来：有人用 4300 行代码复刻 Claude Code 的骨架，有人把跨微服务系统设计拆成「上下文地图 + 契约测试」，也有人把模型能力差异重新归因到 harness、长任务状态机和工具编排上。

换句话说，关注圈的讨论从「哪个模型更强」继续往「怎么把模型关进可验证的工程流程」移动。

线索	来源与身份	要点	扫描价值
Claude Code From Scratch	宝玉，AI Engineer，长期写 AI 工程与管理内容	他推荐一个开源电子书/代码项目：用约 4300 行 TypeScript 与 Python 复现 Claude Code 的 Agent Loop、13 个工具、4 层上下文压缩、语义记忆、技能系统、多 Agent 与 MCP 集成。1	想拆 coding agent 架构的人，可以把它当成「读源码前的训练轮」。
Harness 比模型更影响结果	Santiago，AI/ML Engineering 讲师	他引用 Cline 在 GLM 5.2 上的实验：同一模型、同一组 coding tasks，reasoning 关闭时 57.3%，通过 harness 驱动 reasoning 后 68.5%，差了 11.2 个百分点。2	如果只盯模型榜单，容易漏掉「怎么驱动模型」这个更可控的变量。
Codex Skill Manager	meng shao，做设计与媒体方向 AI Agents	@Dimillian 开源了一个 macOS 图形化管理器，用 SwiftUI + SwiftPM 把 Codex、Claude Code、OpenCode、Copilot 的 Skills 目录统一成一个跨平台管理入口。3	Skills 正在从零散文件夹变成需要可视化管理的资产。
跨微服务 Agent 实践	宝玉，AI Engineer，长期写 AI 工程与管理内容	他给出的做法是：用 monorepo 或虚拟 monorepo 提供全局视图，用根目录 AGENTS.md/CLAUDE.md 做索引，每个服务保留职责边界文档，并用 OpenAPI、mock server、contract test 形成验证闭环。4	企业代码库里，Agent 能不能用，常常卡在「知道该读哪里」和「改完怎么验」。
Long-running Agent 示例	Santiago，AI/ML Engineering 讲师	他分享了一个长任务 Agent 示例：用持久状态机保存进度，用 webhook 唤醒事件驱动 Agent，再用多 Agent 委派替代单 Agent 扛到底。5	对后台流程、审批流、客户 onboarding 这类任务，比一次性聊天更接近真实业务。
LongCat-2.0	meng shao，做设计与媒体方向 AI Agents	他整理了美团 LongCat-2.0 的参数与定位：1.6T MoE、48B 激活参数、1M 上下文，主打 Agent + Coding，并强调训练推理链路的国产加速卡路径。6	国产大模型的叙事继续从「通用对话」转向 coding、长上下文和算力链路。
Flowith Matrix	meng shao，做设计与媒体方向 AI Agents	他把 Matrix 概括成「Agent 公司的操作系统」：用户设 mission，系统拆成 CEO Office、OKR、部门和 proof，并把建站、Stripe、邮件、广告等商业动作放进 Agent runtime。7	这个方向值得观察，但 benchmark 与商业闭环仍要等更多外部验证。
Brain2Qwerty	宝玉，AI Engineer，长期写 AI 工程与管理内容	他转述 Meta Brain2Qwerty v1 登上 Nature Neuroscience、v2 同日发布：v2 直接做句子级实时解码，平均单词准确率 61%，最好被试达到 78%，训练数据来自 9 名志愿者共约 22000 个句子。8	非侵入式脑机接口仍离产品化很远，但句子级解码比单字母还原更接近「能沟通」。
Cybercab	Elon Musk，Tesla / xAI 负责人	他发布「没有方向盘和踏板的 Cybercab 在 Austin 行驶」视频，互动量远高于样本内其他动态。9	样本内热度最高，但原帖信息量有限，只适合列为自动驾驶进展提醒。

Agent 工程开始收敛到三件事

第一件事是可读的架构。Claude Code From Scratch 这种项目的价值，不只是「又一个教程」。它把 Agent Loop、工具调用、上下文压缩、记忆召回和多 Agent 拆到几千行可读代码里，让开发者不用一上来就啃几十万行真实源码。对想做内部 coding agent 的团队来说，这类「缩小版源码」比演示视频更有用。

第二件事是可控的上下文。跨微服务场景里，把所有仓库扔给 Agent 并不等于给了上下文。更稳的办法是先给地图：根目录说明服务边界，每个服务目录保留业务概念与接口说明，再让 Agent 按需读相关部分。这里的关键不是文档越多越好，而是让 Agent 少读过期文档，多读 OpenAPI、Pact 契约、协议测试这类能被机器验证的材料。

第三件事是可重复的验证。Santiago 提到的 harness 差异很典型：同一个 GLM 5.2，在 coding task 上因为驱动方式不同，结果相差 11.2 个百分点。模型能力没有变，外面的脚手架变了。企业里要把 Agent 放进生产流程，下一步很可能不是「换更贵模型」，而是把任务拆分、状态保存、测试回路和失败恢复做扎实。

产品层开始把 Agent 当组织来设计

Flowith Matrix 和 Scout 这类产品都在往同一个方向靠：用户不再逐条写 prompt，而是给目标、指标或 mission，系统自己拆任务、调工具、保留进度。Santiago 对 Scout 的概括是「输入不是代码，而是目标」，平台按 KPI 自动生成 Agent。10

这条线值得看，但也要冷静。只要产品开始承诺「自动建站、收款、发邮件、投广告、产内容」，验证就不能只看 demo。至少要看三类证据：任务失败时怎么恢复，预算和审批怎么控，最后的 proof 是截图、文件，还是实际收入和留存。没有这些，所谓「Agent 公司」很容易退回到自动化工作流的漂亮壳子。

模型与硬件还有两条旁线

LongCat-2.0 的看点在于路径选择。1.6T MoE、48B 激活、1M 上下文这些数字容易抓眼球，但更值得留意的是「Agent + Coding 优先」和「国产加速卡全链路」这两个定位。前者说明模型发布越来越贴近具体开发场景，后者说明算力链路本身也成了产品叙事的一部分。

Brain2Qwerty 则属于更远的技术线。非侵入式脑机接口不用开颅，代价是设备贵、场景重、目前还在实验室。它今天还不是可购买产品，但如果句子级解码能继续提高准确率，未来帮助失语或脑损伤人群的想象空间会大很多。

今天可以点开的三条

如果只留 15 分钟，优先看三条：Claude Code From Scratch，适合拆 coding agent 架构；跨微服务 Agent 实践，适合企业工程团队；Harness 实验，适合正在评估开源模型的人。Cybercab 热度很高，但原帖信息太少，先放进待跟踪列表，不必占用今天的主阅读时间。