谢赛宁的逃逸路线：世界模型、AMI 与被 LLM 催眠的硅谷 (2026)

这期最值得抓住的一句话，不是「AMI Labs 拿了 10.3 亿美元 Seed 轮」，而是谢赛宁说的那句：以前是 download internet，现在是 download human。它把这场 7 小时访谈的野心说穿了：如果大语言模型吃掉的是互联网上已经写成文字的世界，世界模型要面对的就是尚未被写下来、还在发生、会被动作改变的世界。1

第 133 集表面上是一场人物访谈：张小珺在纽约雪后对话 AMI Labs 联合创始人兼首席科学官谢赛宁。这位 1990 年出生的华人学者，毕业于上海交大与 UCSD，任教于 NYU，曾在 Meta FAIR 和 Google DeepMind 做研究，论文引用近 10 万次，也是 Diffusion Transformers（DiT）的共同提出者。2 但这一期真正好看的地方，是一个长期做视觉和表征学习的人，如何把自己的研究口味、人生路径和一家新型 AI 实验室的组织设计连在一起。

本期速读

要点	精读结论
AMI Labs 的位置	它不是在 LLM 赛道里再造一个 OpenAI，而是想做「反向的 OpenAI」：不是下载互联网文本训练模型，再把模型推向市场；而是从真实世界的问题、动作和数据里训练世界模型。2
「逃出硅谷」的含义	谢赛宁批评硅谷「very LLM-pilled」，不是地理意义上厌恶湾区，而是不愿被 LLM 的打榜、产品化和资源分配逻辑锁死。1
世界模型是什么	最简定义是：给定当前状态和动作，预测下一个状态。语言模型预测 next token，世界模型更关心 action 之后世界会怎么变。2
这期的人物底色	谢赛宁不断说自己是「normal one」，但他真正反复呈现的是 research taste：判断什么问题值得做，什么时候要离开已有范式，什么时候要拒绝看上去最顺的路。1

核心观点拆解

1. AMI 想做的不是「另一个大模型公司」

谢赛宁把 AMI 的方向称为「反向的 OpenAI」。正向路径是：互联网已经在那里，把文本数据下载下来，用 Transformer 训练 GPT，再把智能推向 To C 或 To B 应用。反向路径更难：要训练模型本身，可用数据不能直接从互联网拿到，必须让真实世界里的公司、设备、行业场景一起参与。2

这解释了 AMI 为什么从第一天就设置巴黎、纽约、蒙特利尔、新加坡四个研发中心。谢赛宁没有把它讲成一个炫技式全球化布局，而是把它比作 Mastercard 对 Visa 的反击：如果单个地方银行打不过巨头，就把地方银行组织成联盟。AMI 想要的世界模型，也需要类似的联盟，因为它要接触的不是网页上的公开文本，而是农业、医疗、工业、设备、连续信号和物理场景里的数据。2

这也是 10.3 亿美元 Seed 轮真正有信息量的地方。钱当然重要，但更重要的是这笔钱买的不是「更大上下文窗口」或「更会聊天的模型」，而是一个长周期研究组织的试错空间。AMI 当时只有 25 人、没有产品，却已经拿到投前 35 亿美元估值。这个反差说明，投资人押的不是短期收入曲线，而是下一代范式可能不在 LLM 正中央。1

2. 世界模型不是「更大的多模态模型」

谢赛宁给世界模型的定义很朴素：一个系统有当前状态 st，你施加动作 at，模型要预测下一个状态。它的目标不是把世界说得更漂亮，而是让智能体在世界里做决策。2

这和 LLM 的差异很大。LLM 的核心训练任务是预测下一个 token，世界模型关注的是「基于你的 action，预测 next state」。如果一个机器人拿刀切菜，安全不应该只靠给模型喂大量「什么不能做」的数据；更理想的方式是它能预判动作后果，知道一转身会发生什么。2

这也是他为什么反复谈「表征」。世界不需要被完整复刻到每一个分子、纹理和声波参数。状态表示应该保留对未来预测和决策有用的信息，忽略不重要的细节。人的大脑也不是把每一帧都存下来，而是把高带宽感知压成低带宽行为。谢赛宁认为，这种过滤和组织信息的能力，才更接近世界模型要解决的问题。2

3. 他对 LLM 的批评，核心不是「语言没用」

这期里最容易被误读的一点，是把谢赛宁听成一个反语言模型的人。他不是这个意思。他明确说，LLM 是智能体的重要部分；没有大语言模型，人们甚至谈不了今天意义上的世界模型。2

他的批评更尖：LLM 很强，但语言本身是一种人类已经封装好的抽象。它太聪明、太精巧，也太容易让人把「会说」误认为「理解」。所以他才说，LLM 某种程度上是反 Bitter Lesson 的。Bitter Lesson 强调少用人类预设结构，多用搜索和学习；语言恰恰是人类社会最成熟的预设结构之一。2

这句话的刺痛感在于：硅谷今天的很多资源分配，已经被 LLM 的 benchmark、产品化压力和商业竞赛牵着走。研究员明知道视频理解、物理理解、连续空间信号很关键，却常常被放进视频生成或标注链条里，因为那是现有价值链唯一能容纳他们的位置。谢赛宁所谓「逃出来」，逃的是这套问题定义机制。2

4. 两次拒绝 Ilya，背后是 research taste

小宇宙提纲把「两次拒绝了 Ilya」放在 01:21:05，这不是八卦点，而是人物线索。谢赛宁在访谈里讲到，Ilya 给他打过电话，OpenAI 也发过 offer，但他最终拒绝。1 放在一个普通职业叙事里，这会被写成「错过 OpenAI」。放在这场访谈里，更准确的读法是：他不愿意把自己的研究口味交给最热的方向。

所谓 research taste，不是「喜欢什么」这么轻。它更像一种长期训练出来的判断：哪些问题只是热，哪些问题真的深；哪些路径会让人更接近未知，哪些路径只是把你送进一个更大的机器里做螺丝钉。谢赛宁反复提到侯晓迪、何恺明、杨立昆、李飞飞，是因为他在讲一条由人塑造出来的研究路线，而不是把自己包装成天才独行者。2

这也是「The normal one」这个开场有意思的地方。他把自己说成 B class trajectory，不是顶级竞赛选手、不是一路标准答案走上来的人；但他的很多关键选择，都不是跟随最优路线，而是在边缘位置坚持自己想做的 vision、representation 和世界理解。1

5. 「从下载互联网到下载人类」是这期最重的一句

谢赛宁说，以前是 download internet，现在是 download human。这个说法有点粗暴，但它准确描述了世界模型的数据难题：互联网文本不是不够大，而是不够贴近真实世界的动作、感知和反馈。一个 4 岁小孩看过的视频量级，可能比训练语言大模型的 token 还要大；可穿戴设备、智能眼镜、个人助理和工业系统，才可能持续产生世界模型需要的真实信号。2

所以 AMI 的赌注不是「视频数据更多」这么简单。视频只是入口。真正的问题是：怎样把人类和世界持续发生的状态变化，变成模型能学习、能预测、能用于决策的表示。这个问题一旦成立，AI 的中心就会从聊天框移到更广阔的物理世界。

高密度金句

「Silicon Valley is very LLM-pilled。」硅谷被 LLM 催眠，不是因为 LLM 不强，而是因为大家把它当成唯一范式。1
「The world needs World Models. World Models need the world.」世界模型无法只靠实验室闭门训练，它需要真实世界里的问题、数据和伙伴。2
「语言模型是 predict next token，世界模型是基于 your action, predict next state。」这句话把 LLM 和世界模型的差别压到最低维度。2
「LLM 是反 Bitter Lesson 的。」语言不是无用，而是它作为人类封装过的抽象，可能让模型绕开对世界本身的学习。2
「以前是下载互联网的时代，现在是下载人类的时代。」这句话残酷地提示了下一代 AI 的数据来源：真实世界、人类行为和连续感知。2

时间线：谢赛宁这条路怎么走到 AMI

阶段	关键变化
上海交大 ACM 班	从计算机视觉和表征学习开始建立兴趣，也受到《交大生存手册》、侯晓迪等人的影响。1
UCSD 与学术训练	在美国继续走视觉、表征学习和 AI 研究路线，后来进入 Meta FAIR 与 Google DeepMind。1
DiT 与生成模型	共同提出 Diffusion Transformers，站在视觉生成模型从像素建模走向更大范式变化的关键节点上。2
NYU 与 FAIR 传统	在杨立昆的学术传统中继续靠近「世界模型」问题，关注视觉、表征、预测和规划。2
AMI Labs	与杨立昆等共同创业，试图在 LLM 主流叙事之外，搭建一个更偏研究、更分布式、更开放的世界模型公司。1

读完带走

第一，世界模型不是 LLM 的一个插件，而是一套不同的问题定义：它关心动作之后世界如何变化，关心预测、规划和决策。

第二，AMI 的商业想象不在于立刻卖一个 AI 产品，而在于把真实世界的合作伙伴组织起来，获得 LLM 范式之外的数据和问题。

第三，谢赛宁对 LLM 的批评并不廉价。他承认 LLM 是必要前提，但拒绝把语言当成智能的全部。

第四，这期最动人的部分不是融资规模，而是他讲 research taste 时的犹豫和固执。很多重要选择，在当时都不像最优解。

第五，「42」这个结尾像一个玩笑，但它也适合这期：问题比答案更重要。谢赛宁给出的不是通往 AGI 的标准答案，而是一组新的问题：模型如何学习世界？人类如何把自己交给模型？研究组织如何逃出已经被商业竞赛写好的路线？这些问题，短期内不会有整齐答案。

谢赛宁的逃逸路线：世界模型、AMI 与被 LLM 催眠的硅谷