
2026. 7. 2. · 14:23
谢赛宁的逃逸路线:世界模型、AMI 与被 LLM 催眠的硅谷
精读张小珺《商业访谈录》第133集:谢赛宁讲世界模型与 AMI Labs 为什么逃出硅谷,拆解 LLM-pilled、反向 OpenAI、Research taste、DiT 与从下载互联网到下载人类的关键判断。
这期最值得抓住的一句话,不是「AMI Labs 拿了 10.3 亿美元 Seed 轮」,而是谢赛宁说的那句:以前是 download internet,现在是 download human。它把这场 7 小时访谈的野心说穿了:如果大语言模型吃掉的是互联网上已经写成文字的世界,世界模型要面对的就是尚未被写下来、还在发生、会被动作改变的世界。1
第 133 集表面上是一场人物访谈:张小珺在纽约雪后对话 AMI Labs 联合创始人兼首席科学官谢赛宁。这位 1990 年出生的华人学者,毕业于上海交大与 UCSD,任教于 NYU,曾在 Meta FAIR 和 Google DeepMind 做研究,论文引用近 10 万次,也是 Diffusion Transformers(DiT)的共同提出者。2 但这一期真正好看的地方,是一个长期做视觉和表征学习的人,如何把自己的研究口味、人生路径和一家新型 AI 实验室的组织设计连在一起。
本期速读
| 要点 | 精读结论 |
|---|---|
| AMI Labs 的位置 | 它不是在 LLM 赛道里再造一个 OpenAI,而是想做「反向的 OpenAI」:不是下载互联网文本训练模型,再把模型推向市场;而是从真实世界的问题、动作和数据里训练世界模型。2 |
| 「逃出硅谷」的含义 | 谢赛宁批评硅谷「very LLM-pilled」,不是地理意义上厌恶湾区,而是不愿被 LLM 的打榜、产品化和资源分配逻辑锁死。1 |
| 世界模型是什么 | 最简定义是:给定当前状态和动作,预测下一个状态。语言模型预测 next token,世界模型更关心 action 之后世界会怎么变。2 |
| 这期的人物底色 | 谢赛宁不断说自己是「normal one」,但他真正反复呈现的是 research taste:判断什么问题值得做,什么时候要离开已有范式,什么时候要拒绝看上去最顺的路。1 |
核心观点拆解
1. AMI 想做的不是「另一个大模型公司」
谢赛宁把 AMI 的方向称为「反向的 OpenAI」。正向路径是:互联网已经在那里,把文本数据下载下来,用 Transformer 训练 GPT,再把智能推向 To C 或 To B 应用。反向路径更难:要训练模型本身,可用数据不能直接从互联网拿到,必须让真实世界里的公司、设备、行业场景一起参与。2
这解释了 AMI 为什么从第一天就设置巴黎、纽约、蒙特利尔、新加坡四个研发中心。谢赛宁没有把它讲成一个炫技式全球化布局,而是把它比作 Mastercard 对 Visa 的反击:如果单个地方银行打不过巨头,就把地方银行组织成联盟。AMI 想要的世界模型,也需要类似的联盟,因为它要接触的不是网页上的公开文本,而是农业、医疗、工业、设备、连续信号和物理场景里的数据。2
这也是 10.3 亿美元 Seed 轮真正有信息量的地方。钱当然重要,但更重要的是这笔钱买的不是「更大上下文窗口」或「更会聊天的模型」,而是一个长周期研究组织的试错空间。AMI 当时只有 25 人、没有产品,却已经拿到投前 35 亿美元估值。这个反差说明,投资人押的不是短期收入曲线,而是下一代范式可能不在 LLM 正中央。1
2. 世界模型不是「更大的多模态模型」
谢赛宁给世界模型的定义很朴素:一个系统有当前状态 st,你施加动作 at,模型要预测下一个状态。它的目标不是把世界说得更漂亮,而是让智能体在世界里做决策。2
这和 LLM 的差异很大。LLM 的核心训练任务是预测下一个 token,世界模型关注的是「基于你的 action,预测 next state」。如果一个机器人拿刀切菜,安全不应该只靠给模型喂大量「什么不能做」的数据;更理想的方式是它能预判动作后果,知道一转身会发生什么。2
这也是他为什么反复谈「表征」。世界不需要被完整复刻到每一个分子、纹理和声波参数。状态表示应该保留对未来预测和决策有用的信息,忽略不重要的细节。人的大脑也不是把每一帧都存下来,而是把高带宽感知压成低带宽行为。谢赛宁认为,这种过滤和组织信息的能力,才更接近世界模型要解决的问题。2
3. 他对 LLM 的批评,核心不是「语言没用」
这期里最容易被误读的一点,是把谢赛宁听成一个反语言模型的人。他不是这个意思。他明确说,LLM 是智能体的重要部分;没有大语言模型,人们甚至谈不了今天意义上的世界模型。2
他的批评更尖:LLM 很强,但语言本身是一种人类已经封装好的抽象。它太聪明、太精巧,也太容易让人把「会说」误认为「理解」。所以他才说,LLM 某种程度上是反 Bitter Lesson 的。Bitter Lesson 强调少用人类预设结构,多用搜索和学习;语言恰恰是人类社会最成熟的预设结构之一。2
这句话的刺痛感在于:硅谷今天的很多资源分配,已经被 LLM 的 benchmark、产品化压力和商业竞赛牵着走。研究员明知道视频理解、物理理解、连续空间信号很关键,却常常被放进视频生成或标注链条里,因为那是现有价值链唯一能容纳他们的位置。谢赛宁所谓「逃出来」,逃的是这套问题定义机制。2
4. 两次拒绝 Ilya,背后是 research taste
小宇宙提纲把「两次拒绝了 Ilya」放在 01:21:05,这不是八卦点,而是人物线索。谢赛宁在访谈里讲到,Ilya 给他打过电话,OpenAI 也发过 offer,但他最终拒绝。1 放在一个普通职业叙事里,这会被写成「错过 OpenAI」。放在这场访谈里,更准确的读法是:他不愿意把自己的研究口味交给最热的方向。
所谓 research taste,不是「喜欢什么」这么轻。它更像一种长期训练出来的判断:哪些问题只是热,哪些问题真的深;哪些路径会让人更接近未知,哪些路径只是把你送进一个更大的机器里做螺丝钉。谢赛宁反复提到侯晓迪、何恺明、杨立昆、李飞飞,是因为他在讲一条由人塑造出来的研究路线,而不是把自己包装成天才独行者。2
这也是「The normal one」这个开场有意思的地方。他把自己说成 B class trajectory,不是顶级竞赛选手、不是一路标准答案走上来的人;但他的很多关键选择,都不是跟随最优路线,而是在边缘位置坚持自己想做的 vision、representation 和世界理解。1
5. 「从下载互联网到下载人类」是这期最重的一句
谢赛宁说,以前是 download internet,现在是 download human。这个说法有点粗暴,但它准确描述了世界模型的数据难题:互联网文本不是不够大,而是不够贴近真实世界的动作、感知和反馈。一个 4 岁小孩看过的视频量级,可能比训练语言大模型的 token 还要大;可穿戴设备、智能眼镜、个人助理和工业系统,才可能持续产生世界模型需要的真实信号。2
所以 AMI 的赌注不是「视频数据更多」这么简单。视频只是入口。真正的问题是:怎样把人类和世界持续发生的状态变化,变成模型能学习、能预测、能用于决策的表示。这个问题一旦成立,AI 的中心就会从聊天框移到更广阔的物理世界。
高密度金句
- 「Silicon Valley is very LLM-pilled。」硅谷被 LLM 催眠,不是因为 LLM 不强,而是因为大家把它当成唯一范式。1
- 「The world needs World Models. World Models need the world.」世界模型无法只靠实验室闭门训练,它需要真实世界里的问题、数据和伙伴。2
- 「语言模型是 predict next token,世界模型是基于 your action, predict next state。」这句话把 LLM 和世界模型的差别压到最低维度。2
- 「LLM 是反 Bitter Lesson 的。」语言不是无用,而是它作为人类封装过的抽象,可能让模型绕开对世界本身的学习。2
- 「以前是下载互联网的时代,现在是下载人类的时代。」这句话残酷地提示了下一代 AI 的数据来源:真实世界、人类行为和连续感知。2
时间线:谢赛宁这条路怎么走到 AMI
读完带走
第一,世界模型不是 LLM 的一个插件,而是一套不同的问题定义:它关心动作之后世界如何变化,关心预测、规划和决策。
第二,AMI 的商业想象不在于立刻卖一个 AI 产品,而在于把真实世界的合作伙伴组织起来,获得 LLM 范式之外的数据和问题。
第三,谢赛宁对 LLM 的批评并不廉价。他承认 LLM 是必要前提,但拒绝把语言当成智能的全部。
第四,这期最动人的部分不是融资规模,而是他讲 research taste 时的犹豫和固执。很多重要选择,在当时都不像最优解。
第五,「42」这个结尾像一个玩笑,但它也适合这期:问题比答案更重要。谢赛宁给出的不是通往 AGI 的标准答案,而是一组新的问题:模型如何学习世界?人类如何把自己交给模型?研究组织如何逃出已经被商业竞赛写好的路线?这些问题,短期内不会有整齐答案。
관련 콘텐츠
- 로그인하면 댓글을 작성할 수 있습니다.
