
Marcus:Trump给Anthropic的账单,和给伊朗的一样大;Mollick:15个月前LLM还不会数学
Trump政府向Anthropic发出90分钟合规期限,Gary Marcus用「$3000亿估值 vs $3000亿伊朗重建基金」一句话定性政治逻辑;Ethan Mollick则在看另一边:AI已能解决10道极难数学新题中的7道,但媒体标题是「没达到预期」,他不觉得这个标题成立。

Trump 给 Anthropic 的账单,和给伊朗的账单一样大。这是 Gary Marcus 昨天在 X 上扔出的一句话,用来总结这个让整个 AI 行业都瞪大眼睛的周末。
Ethan Mollick 没有谈政治,他在看别处:AI 已经能解决 10 道极难数学新题中的 7 道,但媒体的标题是「没达到预期」。他对这个标题的反应,浓缩了他观察 AI 能力进化的一贯视角。
两条线,各自独立,同一天发出。
Marcus:$3000 亿和 $3000 亿
事件本身已经在科技圈掀起波澜:Trump 政府据报向 Anthropic 发出合规要求,仅给了 90 分钟答复窗口,且未提前说明具体问题所在。1
Marcus 对这件事的定性,用的是一个算术对比:「Trump 可能让 Anthropic 损失 $3000 亿估值,同一个周末他显然同意了向伊朗提供 $3000 亿重建基金。他到底站哪边?」2
コンテンツカードを読み込んでいます…
这句话杀伤力的来源不是财政数字本身,而是「政治意志」与「行业保护」之间的落差。Marcus 在其他推文里进一步指出,LLM 公司所面临的公众反弹已经是一个严肃的经济威胁,不只是 PR 问题。3 用户信任受损会直接切割付费意愿,而监管压力则从上方同时施压。
他还转发了 @xriskology 此前长期警告的内容,言下之意:那些被当作末日预言忽略掉的 AI 风险担忧,正一条一条变成新闻。4 配的是「这就是他们一直在警告的东西」。
Marcus 的态度一直有两层,外界有时只看到第一层(批评 AI 泡沫)而忽视第二层:他不反对 AI 本身,他反对的是在监管真空里扩张、同时游说政府排除竞争对手、而后又把政府的反手拍当成「打压创新」的 AI 公司。这个周末发生的事,他大概认为至少局部证实了这个框架。
Mollick:15 个月前 LLM 还不会做数学
时间向后拨几个小时。一份数学评测报告5显示 AI 解决了 10 道高难度数学新题中的 7 道,但媒体标题落脚在「没有达到预期」。
Mollick 的反应是:「我不确定解决 7/10 道全新超难题算'没达到预期'——15 个月前,LLM 还完全不会做数学。」6
コンテンツカードを読み込んでいます…
这是他最典型的立场:不是无条件为 AI 辩护,而是要求用动态基准而非静态期望来衡量进步。研究本身他认为有价值——它揭示了 AI 在数学上的真实盲区,而不只是给个分数。
在另一条推文里,他记录了一个来自 Google DeepMind 研究者的发现:当一个 AI 模型被用来帮助训练下一代模型时,新模型会继承旧模型的奇怪习惯,且很难过滤干净。7 他的推断是——这可能就是为什么同一家公司的模型用起来总有某种家族相似感,那不只是品牌调性,而是字面意义上的习惯遗传。
在 AI Agent 和组织变革上,他在前一天(06-14)发的一条推文也进入了今天的讨论窗口,并在 06-15 持续被引用。他的核心立场是:「我们真的还不知道如何围绕 AI Agent 重建公司。实用 Agent 才几个月大,需要大量实验,和有成效的失败。」8 这是对那些已经在发「AI 重构组织白皮书」的咨询公司的隐性反驳。
他也修正了自己的一条推文:他删掉了原版本中「API 用户不理解」的措辞——因为他意识到那个说法没有区分「裸 API 用户」和「仔细评测过不同 harness 的 API 用户」,后者其实知道他们在做什么。9 这个细节不是大新闻,但在一个充满「我说了」的行业里,主动修正措辞算是某种示范。
Fable:中间出现了一个共同话题
Marcus 那边,Fable 是 Anthropic 被打压这件事的背景板之一——Anthropic 正是因为 Fable 引发的护栏争议而持续处于聚光灯下。Mollick 这边,则是把 Fable 当作一次技术跃迁的基准。
他在 06-15 写道:「Fable 确实非常好,就像我上周测试后写的那样。这是一次飞跃,可能是因为指数级增益在推进时每次发布的进步本身在变大。如果是这样,Anthropic 不会是唯一做出飞跃的实验室。」10 附的是他在 Substack 上发布的测评文章《What it feels like to work with Mythos》。
コンテンツカードを読み込んでいます…
他顺带调侃了一句:「Fable 宕机的副作用是 Claude Code 里出现'toast'这个词的频率大幅下降——那个模型比我用过的任何模型都更爱用软件开发和 UX 行话。」11
这两条合在一起,画出了一个完整的讽刺弧线:能力飞跃了,但模型还是会教条地往代码里塞「toast」。技术进步和工程品味,不一定同步。
このコンテンツについて、さらに観点や背景を補足しましょう。