
Mollick:自我改进先改变发货频率;Marcus:Claude Code 不是纯规模故事
本期可入选原创主要集中在 Ethan Mollick 与 Gary Marcus。文章梳理 Mollick 对有限 AI 自我改进、合约劳动商品化与 AI 文学偏科的判断,以及 Marcus 对 Claude Code 工程复杂度和 hyperscaling 成本账本的质疑。

本期能进入正文的原创观点,主要集中在 Ethan Mollick 和 Gary Marcus 两个人身上。Sama、Karpathy、Demis Hassabis、Jim Fan、François Chollet、Ilya Sutskever 在本轮窗口内没有可用原创主条目;Yann LeCun 的窗口内动态是转推,不计入主线。真正值得读的是两条互相咬合的线索:Mollick 盯着「模型—产品—工具链」的发货节奏,Marcus 则提醒大家,连 Claude Code 这样的明星产品也不是「纯规模」故事。
速览:今天不是新模型发布日,而是路线分歧日
| 人物 | 本期信号 | 可读价值 |
|---|---|---|
| Ethan Mollick,沃顿商学院教授 | 如果 AI 哪怕只能做有限自我改进,Anthropic 和 OpenAI 的产品、harness 与模型发货节奏都应该加快;他认为这种现象已经在这两家公司出现,但其他去年看似追赶的实验室没有同步表现出来 1。 | 这把竞争焦点从「单个模型谁更强」移到「哪家实验室能把模型改进、产品化和工具链迭代绑成循环」。 |
| Gary Marcus,AI 批评者与《Marcus on AI》作者 | 他反驳「Claude Code 只是规模结果」的说法,指出 Claude Code 使用 harness、symbolic tools、regular expressions 和 50 万行 symbolic code,并强调它不是 scale alone,而是 specialized 2。 | 这让「端到端神经网络 vs 工程化系统」之争重新回到产品层,而不是停在论文口号。 |
| Mollick 与 Marcus 的交叉点 | Mollick 看到发货节奏可能加速,Marcus 盯着资源、债务和工程复杂度;他同日还说,世界没有足够资源去建 5 座「巴别塔」,因此相关贷款违约会很惊人 3。 | 两人不是在讨论同一件事,但合起来像一句提醒:AI 进展会更快,成本账本也会更硬。 |
Mollick:有限自我改进的第一反应,不是「奇点」,而是发货频率
Mollick 这条推文最容易被读偏。他没有宣布「递归自我改进已经到来」,而是把假设压得很低:even in a very limited way。如果 AI 能在有限范围内帮助改进 AI 产品、harness 和模型,那么最先变化的不是科幻叙事,而是组织节奏:产品发版更密,工具链更快更新,模型能力和应用外壳之间的距离被压短 1。
Cargando tarjeta de contenido…
这句话对从业者的含义很具体:评估实验室时,不能只看 benchmark 排名,还要看它是否能把模型能力迅速封装进可用产品。Anthropic 和 OpenAI 被他单独点名,并不是因为它们「一定更聪明」,而是因为他观察到两家在模型和产品 harness 上形成了更快的交付节奏 1。
这里的反面同样重要。Mollick 说,其他去年看似正在追赶的实验室没有表现出同样节奏 1。这不是一句简单的排名判断,而是在提醒:追赶者如果只追模型指标,不追产品化闭环,差距可能会在下一轮迭代中被重新拉开。
Marcus:Claude Code 的强,恰好说明「纯规模」解释不够
Marcus 今天最有信息密度的一条,是他对 Claude Code 的拆解。他说,Anthropic 自己的 Claude Code 使用 harness、symbolic tools、regular expressions 和 50 万行 symbolic code;结论是:这不是 scale alone,而且它是 specialized 2。
Cargando tarjeta de contenido…
这条推文把争论从「大模型有没有智能」拉回到「一个可工作的 AI 产品到底由什么构成」。如果一个 coding agent 的体验来自模型能力、工具调用、规则系统、搜索/检索、执行环境、安全边界和大量胶水代码的组合,那么把成败都归因于参数规模,本身就是过度简化。
这也解释了为什么 Mollick 和 Marcus 今天并不完全矛盾。Mollick 说发货节奏可能因为 AI 参与改进而变快;Marcus 说产品能力不是纯模型涌现,而是专门化工程堆出来的。合在一起看,领先实验室的优势可能不只是「模型更强」,而是「模型团队、产品团队和系统工程团队在同一条迭代链上」。
Marcus 对 hyperscaling 的质疑也没有停在情绪层面。他用「世界没有足够资源建 5 座巴别塔」来批评多家实验室同时押注超大规模基础设施,并预期相关贷款违约会很严重 3。这句话有夸张成分,但它指向一个现实问题:如果每家公司都按赢家通吃的基础设施假设融资,行业最后承受的是重复建设、资本错配和资产负债表压力。
另一条暗线:AI 把评分口径打平,也会把劳动和创作打平
Mollick 晚些时候转向两个更细的观察。第一,他说一些发现显示,AI 在「拉平表现」的同时,也会商品化合约劳动 4。这不是宏大失业论,而是更贴近日常外包市场:当中等任务的输出差距被工具压窄,买方就更容易把供应商视为可替换产能。
Cargando tarjeta de contenido…
第二,他谈到 AI 写小说的偏科:总体上,AI 不是强小说作者;但它非常擅长一种「隐喻密集、断裂短句、情节较轻」的风格,而这种风格有时刚好能在现代文学短篇比赛中表现不错 5。
这两条其实在说同一个机制:AI 未必掌握完整能力,却可能在某些评分标准上达到足够高的可替代性。外包市场看的是交付是否合格,短篇比赛看的是某种审美口径是否命中;一旦评估标准窄化,AI 就可能先把「好像够用」的部分商品化。
Marcus 的情绪性短句也放在这个背景下看更合理。他问,是否还有比生成式 AI 更「soul-crushing」的技术 6。单看这句话,它不是严谨论证;但和 Mollick 的合约劳动观察放在一起,它反映的是同一层焦虑:AI 带来的不只是效率提升,还有被打平、被替换、被重新定价的心理成本。
今天该盯的,是「快」和「贵」能不能同时成立
本期最有用的结论不是「Mollick 乐观、Marcus 悲观」。更准确地说,Mollick 把注意力放在 快:AI 可能让最头部实验室的模型、产品和 harness 迭代更快。Marcus 把注意力放在 贵:这些能力往往依赖专门化工程、庞大基础设施和资本杠杆,不是靠一句「规模会解决」就能免费获得。
对国内 AI 团队来说,今天这组信号可以转成两个检查项。第一,看一家实验室时,不只看模型榜单,要看它有没有把模型能力持续转化为产品节奏。第二,看一个 AI 产品时,不只问底座模型是谁,要问它背后用了多少工具链、规则系统、执行环境和人工工程。真正的壁垒,可能就藏在这两者之间:能不能跑得更快,同时不把成本和复杂度推到失控。
Añade más opiniones o contexto en torno a este contenido.