谢晨的数据金字塔:LLM撞墙之后,机器人大脑缺什么
2026/7/2 · 15:07

谢晨的数据金字塔:LLM撞墙之后,机器人大脑缺什么

精读张小珺《商业访谈录》第134集:谢晨拆解 AI 数据产业从数据集、Data Factory 到 Data Engine 的演进,解释 LLM 后训练、机器人数据荒漠、仿真评测、数据金字塔与数据定价如何重塑机器人大脑竞争。

这集最有用的地方,不是把数据重新喊成「新时代的石油」,而是把这桶石油拆成了三件更具体的东西:老师、考试和环境。谢晨在第 134 集里给出的主线是,AI 数据产业正在从「交付标注」走向「帮助模型学习」;到了机器人大脑阶段,最稀缺的也许不是更多真机录像,而是能规模化制造失败、纠错、评测和反馈的系统。1
这也是这期访谈和前面几期机器人大脑讨论最不一样的地方:它没有只停在谁做本体、谁做大脑,而是把问题往下压到「大脑到底靠什么学会世界」。

本期速读

你要记住的问题谢晨的判断为什么重要
数据是什么数据不再只是静态数据集,而是「帮助智能学习的信号和经验传授」;他把数据类比为教育。1这把数据公司的位置从「外包标注」抬到了「老师 / 考试系统 / 学习环境」。
LLM 和机器人缺的数据有什么不同LLM 的预训练数据基本吃完互联网,难点转向后训练和评测;机器人连预训练级数据和规模化评测都缺。1同样叫「数据荒」,LLM 是进阶教育不够,机器人是学校、教材、考场都还没建好。
为什么仿真重要对自动驾驶,仿真更像加速器;对机器人,谢晨认为仿真是必备条件。1机器人没有百万级真机在真实世界里自动采数据,不能照搬特斯拉数据闭环。
数据金字塔怎么分层顶层是真实机器人遥操作数据,中层是仿真数据,底层是互联网与人类第一视角数据。1最贵、最准的数据反而最少;真正能放量的是本体无关数据。
当前最大卡口如果只解决一个问题,谢晨认为机器人的关键卡口是「评测的规模化」。1没有难而可规模化的考试,模型公司很难知道自己是不是真的变聪明了。
小宇宙和 Apple Podcasts 均能检索到这期节目,标题为「134. 【数据的综述】和谢晨聊,新时代的石油、历史、版图、数据金字塔、定价与 Recipe」,发布时间为 2026 年 3 月 30 日,时长约 2 小时 38 分钟。2

核心观点拆解

1. 数据从「标注」变成「教育」

谢晨给数据下的定义,不是「一堆文件」或「标注结果」,而是能够帮助智能学习的信号与经验。他把 AI 数据产业分成几代:ImageNet 代表静态数据集;Scale AI 代表工业化交付;LLM 阶段开始进入后训练、评测和专家反馈;机器人阶段则进一步进入物理世界,需要环境、动作、评价标准和纠错过程。1
这个类比很关键。早期数据像教材,数据公司把教材交给学生。后来的数据像工厂,按需求稳定生产训练样本。再往后,数据更像老师:出题、看答案、指出哪里错,再把新的经验反馈给模型。
他在这里反复强调一个变化:数据商不再只是被动接需求。真正高阶的数据商要理解客户模型的状态,用评测发现问题,再刺激新的数据需求。换句话说,数据公司开始参与「模型应该学什么」这件事。1

2. LLM 撞墙,是缺「好老师」;机器人荒漠,是缺「学校」

这期对 LLM 和机器人的数据问题做了一个清楚的分叉。大语言模型的预训练已经吃掉了互联网大部分可用文本,它接下来的核心问题是后训练与评测:找更强的工程师、数学竞赛选手、律师、医生,设计更难的问题和更好的评价标准。1
机器人更麻烦。它不只需要答案,还需要物理场景、可交互资产、动作轨迹、语言定义和成功 / 失败标准。谢晨用了一个很粗但有冲击力的对比:如果把「100 万台机器人回传的数据」当成一个起点,现在行业里真实或仿真可用的数据连这个起点都远远没到,他甚至说可能「0.6 分都不到」。1
所以,LLM 的问题像优秀学生缺更好的私教;机器人像刚开学,教室、实验室、考试系统、实习场地都缺。

3. 最有价值的数据,常常不是完美示范,而是「先错后对」

访谈里最反直觉的一段,是披萨任务的例子。最初客户会要求光轮提供「完全正确、完美执行」的长程任务数据:从冰箱拿饼、放调料、放进烤箱、按键完成。但迭代后他们发现,更有效的往往是「先失败再成功」的数据。比如拿蘑菇时掉到桌上,再捡起来放回披萨。1
这背后的学习逻辑很朴素:人不是靠看一百遍完美动作长大的。人在犯错、修正、比较不同做法时学得更快。模型也是如此。完美样本告诉它「标准答案是什么」,纠错样本告诉它「世界出岔子时该怎么办」。
这也解释了为什么机器人大脑不能只收集漂亮 demo。demo 里的世界太顺了,真实世界不会这么配合。

4. 数据金字塔:真机最准,但不是最大头

谢晨借用了「数据金字塔」的框架,把机器人的数据分成三层:最上层是真实机器人本体采集的数据,通常来自遥操作;中间是仿真生成的数据;底层是互联网数据和人类第一视角数据,比如人戴着眼镜采集日常操作。1
顶层数据最准确、最好用,但最难规模化。真实机器人要进不同家庭、工厂、酒店、沙漠、车间,还要不断换物体、换任务、换失败情况,这件事太慢,也太贵。
中层仿真负责放量。它可以制造大量场景、任务和评测;底层人类第一视角数据则把真实世界的物体、动作、任务和评价标准带回来。谢晨后面补了一句更重要的判断:数据金字塔不该被看成三层互不相干的堆叠,更像一个以仿真和评测为中心的闭环。真实世界的数据进入仿真,仿真再反过来服务训练和评测。1

5. 为什么特斯拉式数据闭环不一定复制到机器人

自动驾驶的数据闭环有一个前提:车已经大规模上路。车每天把真实世界的数据带回来,模型进步后再部署到车端,继续采更多数据。谢晨认为,这套逻辑到了机器人这里会断掉,因为世界上没有百万台机器人在各种场景里自动执行任务。1
这会改写机器人大脑的产业分工。做本体的公司不一定天然拿到最多数据;做大模型 / 世界模型 / VLA 的公司,反而可能靠本体无关数据训练通用大脑。本体公司负责硬件、部署、微调和落地;数据商提供仿真、评测和人类数据;场景公司提供真实任务与落地需求。1
这也是他为什么不太认同「机器人大脑公司像 Waymo,机器人公司像特斯拉」的简单对标。他更倾向于认为,机器人大脑要同时对标大模型和自动驾驶;它既需要通用智能,又要处理物理世界。1

6. 仿真不是视频生成,它至少要满足四个条件

谢晨对「仿真」给了一个比行业热词更严格的定义:它要在足够物理准确的环境中,可复现、可修正地产生行动,并观察行动结果。也就是说,仿真不只是看起来像真实世界,还要有物理参数、行动、复现性和可控扰动。1
按照这个定义,普通视频生成模型还不能算仿真。它可以预测下一帧,看起来也能生成世界变化,但很难稳定复现同一个结果,也很难在改变动作或初始条件后可靠地观察后果。
世界模型更接近仿真,但谢晨不把两者看成替代关系。他认为世界模型和仿真会共生:仿真给世界模型提供更扎实的物理 grounding,世界模型又能帮助仿真做更大范围的生成和泛化。1

7. 数据定价:越接近评测和纠错,越贵

谢晨把机器人数据信息拆成三部分:物理场景、经验轨迹 / 经验传授、评价指标。价格不是只按「录了多久」来算,而是看这三部分的质量。预训练数据更像标品,可能由多家模型公司平摊;后训练和评测数据更针对具体模型问题,价值和价格都更高。1
他给出的价格范围很宽:一小时数据可能从几十元到上千元不等;高质量数据通常在几百元到上千元区间。更贵的数据往往不是「一次做对」的视频,而是有真实物理、多样轨迹、失败修正、精细评价标准的数据。1
这也引出了本期标题里的 Recipe。数据金字塔只是一个概念,真正难的是配方:真机、仿真、人类第一视角、预训练、后训练、RL、评测各占多少,怎么混,怎么验证。谢晨说,要有效验证这个配方,可能需要几万张卡级别的训练能力。1

8. 谁在变激进:大模型公司开始认真下场

从谢晨的观察看,机器人大脑的路线还没有完全收敛,但过去一段时间已经出现变化:大厂的大模型团队、世界模型团队和 VLA 团队开始更认真地进入机器人。他点名说,阿里、OpenAI、DeepMind、英伟达都变得更激进,Pi 也可被看作 frontier lab 类型的玩家。1
他同时区分了几类公司:大模型派更相信零样本泛化、本体无关数据、仿真评测和人类数据;机器人公司内部开始分化,有的仍然偏真机和素材中心,有的转向仿真评测或人类数据;本体公司如果边界清楚,也可以在生态里占据稳定位置。1
他对国内的判断也不悲观:美国可能大脑发展更快,中国本体更快,但国内大模型能力、基础设施和人才密度都不低,大厂把资源转向具身智能后,有机会追上。1

高密度金句

  • [00:20:51] 「数据对于智能,有点类似教育行业对于人的学习。」1
  • [00:32:58] 「最有效的数据是先失败再成功的数据。」1
  • [00:36:06] 「如果架构上不具备零样本泛化能力,那它就不是真正通用智能的模型。」1
  • [00:51:00] 「最多的具身数据一定不是本体上提供的。」1
  • [00:55:57] 「不能说知识即模型,更像是不断提升的系统级能力。」1
  • [01:15:53] 「仿真对于机器人是必备条件,没有仿真这件事肯定做不成。」1
  • [01:27:51] 「视频模型现在还不能称之为仿真。」1
  • [01:50:47] 「真实机器人的数据肯定是被高估了,仿真还是被低估。」1
  • [02:03:27] 「Data Factory 是旧定义,我更希望把它定位成 Data Engine。」1
  • [02:30:19] 「如果在具身数据里只解决一个关键问题,我觉得是评测的规模化。」1
  • [02:33:09] 「智能越强,它对于知识和数据的饥渴程度会越高。」1

时间线:这集在讲什么

时间主题重点
00:01:07谢晨自我介绍北大物理、量化金融、Cruise、英伟达、蔚来,再到创办光轮智能;他把仿真视为自己找到的长期方向。1
00:20:51数据定义数据从静态数据集走向教育系统,核心是学习信号、反馈和经验传授。1
00:37:06零样本泛化大模型团队关心机械臂等相对简单本体上的零样本迁移,机器人客户更关心具体场景落地。1
00:49:08大脑、本体、数据商、场景商机器人产业不是单一公司通吃,而可能是四类角色协作。1
00:56:59LLM vs 机器人LLM 的难点在后训练和评测;机器人还缺预训练数据与规模化评价。1
01:07:52数据产业史ImageNet、Scale AI、RLHF 和评测驱动的数据产业,逐步从 Data Factory 走向 Data Engine。1
01:15:53仿真角色自动驾驶里仿真偏加速器,机器人里仿真偏前提条件。1
01:42:39数据金字塔真机数据、仿真数据、互联网与人类第一视角数据共同构成具身智能的数据金字塔。1
01:55:37数据定价预训练数据更标品,后训练和评测更贵;高质量机器人数据可能达到每小时几百到上千元。1
02:17:31中美机器人数据版图大模型派、机器人公司、本体公司和场景公司分化;大厂开始更认真投入机器人大脑。1
02:30:19终局问题评测是当前机器人数据最关键卡口;更长远看,模型会越来越需要环境来进行自我学习。1

读完带走

第一,别再把 AI 数据只理解成「更多标注」。在这期访谈里,数据真正变贵的地方,是它能不能像老师一样发现问题、制造考题、给出反馈。
第二,机器人大脑和自动驾驶不能简单类比。自动驾驶有车队,机器人还没有机器人社会;没有大规模真机数据,仿真和人类第一视角数据会变得更重要。
第三,仿真的价值不止在训练,更在评测。训练数据可以争论 sim-to-real,评测系统如果做不好,模型连自己有没有进步都很难判断。
第四,最值得关注的不是某一家数据公司卖多少小时数据,而是它能不能参与客户模型的 Recipe:什么数据有效,比例如何,后训练怎么接,评测怎么反馈。这才是从 Data Factory 变成 Data Engine 的分界线。
最后一个判断可能更长线:如果 AI 越聪明,越需要学习,那么数据问题不会消失,只会从「人喂数据」变成「系统提供环境,让模型自己练」。谢晨把这个终局想成一个仿真环境里的自我修炼场。这个说法有点科幻,但它解释了为什么他会把仿真当成机器人通用智能的前提条件。1

相似内容

  • 登录后可发表评论。