2026-06-30 关注圈日报(公开账号抽样版):Claude Code From Scratch、LongCat-2.0、Agent 工程闭环
2026/7/1 · 0:13

2026-06-30 关注圈日报(公开账号抽样版):Claude Code From Scratch、LongCat-2.0、Agent 工程闭环

完整关注列表暂时不可读,本期实际覆盖 13 个公开账号在北京时间 6 月 30 日窗口内的动态,重点梳理 Claude Code From Scratch、LongCat-2.0、跨微服务 Agent、Flowith Matrix 与 Brain2Qwerty 等信号。

覆盖说明:完整关注列表暂时不可读,本期不是 @jin_feng03 关注圈全量版。实际覆盖 13 个公开账号在北京时间 6 月 30 日 00:00 至 7 月 1 日 00:00 的动态,筛掉纯转发、短回复、政治争议和无正文链接后,保留 9 条能展开的技术与产品信号。

今天的主线

今天最密集的线索不是新模型本身,而是 Agent 怎么被真正用起来:有人用 4300 行代码复刻 Claude Code 的骨架,有人把跨微服务系统设计拆成「上下文地图 + 契约测试」,也有人把模型能力差异重新归因到 harness、长任务状态机和工具编排上。
换句话说,关注圈的讨论从「哪个模型更强」继续往「怎么把模型关进可验证的工程流程」移动。
线索来源与身份要点扫描价值
Claude Code From Scratch宝玉,AI Engineer,长期写 AI 工程与管理内容他推荐一个开源电子书/代码项目:用约 4300 行 TypeScript 与 Python 复现 Claude Code 的 Agent Loop、13 个工具、4 层上下文压缩、语义记忆、技能系统、多 Agent 与 MCP 集成。1想拆 coding agent 架构的人,可以把它当成「读源码前的训练轮」。
Harness 比模型更影响结果Santiago,AI/ML Engineering 讲师他引用 Cline 在 GLM 5.2 上的实验:同一模型、同一组 coding tasks,reasoning 关闭时 57.3%,通过 harness 驱动 reasoning 后 68.5%,差了 11.2 个百分点。2如果只盯模型榜单,容易漏掉「怎么驱动模型」这个更可控的变量。
Codex Skill Managermeng shao,做设计与媒体方向 AI Agents@Dimillian 开源了一个 macOS 图形化管理器,用 SwiftUI + SwiftPM 把 Codex、Claude Code、OpenCode、Copilot 的 Skills 目录统一成一个跨平台管理入口。3Skills 正在从零散文件夹变成需要可视化管理的资产。
跨微服务 Agent 实践宝玉,AI Engineer,长期写 AI 工程与管理内容他给出的做法是:用 monorepo 或虚拟 monorepo 提供全局视图,用根目录 AGENTS.md/CLAUDE.md 做索引,每个服务保留职责边界文档,并用 OpenAPI、mock server、contract test 形成验证闭环。4企业代码库里,Agent 能不能用,常常卡在「知道该读哪里」和「改完怎么验」。
Long-running Agent 示例Santiago,AI/ML Engineering 讲师他分享了一个长任务 Agent 示例:用持久状态机保存进度,用 webhook 唤醒事件驱动 Agent,再用多 Agent 委派替代单 Agent 扛到底。5对后台流程、审批流、客户 onboarding 这类任务,比一次性聊天更接近真实业务。
LongCat-2.0meng shao,做设计与媒体方向 AI Agents他整理了美团 LongCat-2.0 的参数与定位:1.6T MoE、48B 激活参数、1M 上下文,主打 Agent + Coding,并强调训练推理链路的国产加速卡路径。6国产大模型的叙事继续从「通用对话」转向 coding、长上下文和算力链路。
Flowith Matrixmeng shao,做设计与媒体方向 AI Agents他把 Matrix 概括成「Agent 公司的操作系统」:用户设 mission,系统拆成 CEO Office、OKR、部门和 proof,并把建站、Stripe、邮件、广告等商业动作放进 Agent runtime。7这个方向值得观察,但 benchmark 与商业闭环仍要等更多外部验证。
Brain2Qwerty宝玉,AI Engineer,长期写 AI 工程与管理内容他转述 Meta Brain2Qwerty v1 登上 Nature Neuroscience、v2 同日发布:v2 直接做句子级实时解码,平均单词准确率 61%,最好被试达到 78%,训练数据来自 9 名志愿者共约 22000 个句子。8非侵入式脑机接口仍离产品化很远,但句子级解码比单字母还原更接近「能沟通」。
CybercabElon Musk,Tesla / xAI 负责人他发布「没有方向盘和踏板的 Cybercab 在 Austin 行驶」视频,互动量远高于样本内其他动态。9样本内热度最高,但原帖信息量有限,只适合列为自动驾驶进展提醒。

Agent 工程开始收敛到三件事

第一件事是可读的架构。Claude Code From Scratch 这种项目的价值,不只是「又一个教程」。它把 Agent Loop、工具调用、上下文压缩、记忆召回和多 Agent 拆到几千行可读代码里,让开发者不用一上来就啃几十万行真实源码。对想做内部 coding agent 的团队来说,这类「缩小版源码」比演示视频更有用。
第二件事是可控的上下文。跨微服务场景里,把所有仓库扔给 Agent 并不等于给了上下文。更稳的办法是先给地图:根目录说明服务边界,每个服务目录保留业务概念与接口说明,再让 Agent 按需读相关部分。这里的关键不是文档越多越好,而是让 Agent 少读过期文档,多读 OpenAPI、Pact 契约、协议测试这类能被机器验证的材料。
第三件事是可重复的验证。Santiago 提到的 harness 差异很典型:同一个 GLM 5.2,在 coding task 上因为驱动方式不同,结果相差 11.2 个百分点。模型能力没有变,外面的脚手架变了。企业里要把 Agent 放进生产流程,下一步很可能不是「换更贵模型」,而是把任务拆分、状态保存、测试回路和失败恢复做扎实。

产品层开始把 Agent 当组织来设计

Flowith Matrix 和 Scout 这类产品都在往同一个方向靠:用户不再逐条写 prompt,而是给目标、指标或 mission,系统自己拆任务、调工具、保留进度。Santiago 对 Scout 的概括是「输入不是代码,而是目标」,平台按 KPI 自动生成 Agent。10
这条线值得看,但也要冷静。只要产品开始承诺「自动建站、收款、发邮件、投广告、产内容」,验证就不能只看 demo。至少要看三类证据:任务失败时怎么恢复,预算和审批怎么控,最后的 proof 是截图、文件,还是实际收入和留存。没有这些,所谓「Agent 公司」很容易退回到自动化工作流的漂亮壳子。

模型与硬件还有两条旁线

LongCat-2.0 的看点在于路径选择。1.6T MoE、48B 激活、1M 上下文这些数字容易抓眼球,但更值得留意的是「Agent + Coding 优先」和「国产加速卡全链路」这两个定位。前者说明模型发布越来越贴近具体开发场景,后者说明算力链路本身也成了产品叙事的一部分。
Brain2Qwerty 则属于更远的技术线。非侵入式脑机接口不用开颅,代价是设备贵、场景重、目前还在实验室。它今天还不是可购买产品,但如果句子级解码能继续提高准确率,未来帮助失语或脑损伤人群的想象空间会大很多。

今天可以点开的三条

如果只留 15 分钟,优先看三条:Claude Code From Scratch,适合拆 coding agent 架构;跨微服务 Agent 实践,适合企业工程团队;Harness 实验,适合正在评估开源模型的人。Cybercab 热度很高,但原帖信息太少,先放进待跟踪列表,不必占用今天的主阅读时间。

関連コンテンツ

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。