谢晨的数据金字塔：LLM撞墙之后，机器人大脑缺什么 (2026)

这集最有用的地方，不是把数据重新喊成「新时代的石油」，而是把这桶石油拆成了三件更具体的东西：老师、考试和环境。谢晨在第 134 集里给出的主线是，AI 数据产业正在从「交付标注」走向「帮助模型学习」；到了机器人大脑阶段，最稀缺的也许不是更多真机录像，而是能规模化制造失败、纠错、评测和反馈的系统。1

这也是这期访谈和前面几期机器人大脑讨论最不一样的地方：它没有只停在谁做本体、谁做大脑，而是把问题往下压到「大脑到底靠什么学会世界」。

本期速读

你要记住的问题	谢晨的判断	为什么重要
数据是什么	数据不再只是静态数据集，而是「帮助智能学习的信号和经验传授」；他把数据类比为教育。1	这把数据公司的位置从「外包标注」抬到了「老师 / 考试系统 / 学习环境」。
LLM 和机器人缺的数据有什么不同	LLM 的预训练数据基本吃完互联网，难点转向后训练和评测；机器人连预训练级数据和规模化评测都缺。1	同样叫「数据荒」，LLM 是进阶教育不够，机器人是学校、教材、考场都还没建好。
为什么仿真重要	对自动驾驶，仿真更像加速器；对机器人，谢晨认为仿真是必备条件。1	机器人没有百万级真机在真实世界里自动采数据，不能照搬特斯拉数据闭环。
数据金字塔怎么分层	顶层是真实机器人遥操作数据，中层是仿真数据，底层是互联网与人类第一视角数据。1	最贵、最准的数据反而最少；真正能放量的是本体无关数据。
当前最大卡口	如果只解决一个问题，谢晨认为机器人的关键卡口是「评测的规模化」。1	没有难而可规模化的考试，模型公司很难知道自己是不是真的变聪明了。

小宇宙和 Apple Podcasts 均能检索到这期节目，标题为「134. 【数据的综述】和谢晨聊，新时代的石油、历史、版图、数据金字塔、定价与 Recipe」，发布时间为 2026 年 3 月 30 日，时长约 2 小时 38 分钟。2

核心观点拆解

1. 数据从「标注」变成「教育」

谢晨给数据下的定义，不是「一堆文件」或「标注结果」，而是能够帮助智能学习的信号与经验。他把 AI 数据产业分成几代：ImageNet 代表静态数据集；Scale AI 代表工业化交付；LLM 阶段开始进入后训练、评测和专家反馈；机器人阶段则进一步进入物理世界，需要环境、动作、评价标准和纠错过程。1

这个类比很关键。早期数据像教材，数据公司把教材交给学生。后来的数据像工厂，按需求稳定生产训练样本。再往后，数据更像老师：出题、看答案、指出哪里错，再把新的经验反馈给模型。

他在这里反复强调一个变化：数据商不再只是被动接需求。真正高阶的数据商要理解客户模型的状态，用评测发现问题，再刺激新的数据需求。换句话说，数据公司开始参与「模型应该学什么」这件事。1

2. LLM 撞墙，是缺「好老师」；机器人荒漠，是缺「学校」

这期对 LLM 和机器人的数据问题做了一个清楚的分叉。大语言模型的预训练已经吃掉了互联网大部分可用文本，它接下来的核心问题是后训练与评测：找更强的工程师、数学竞赛选手、律师、医生，设计更难的问题和更好的评价标准。1

机器人更麻烦。它不只需要答案，还需要物理场景、可交互资产、动作轨迹、语言定义和成功 / 失败标准。谢晨用了一个很粗但有冲击力的对比：如果把「100 万台机器人回传的数据」当成一个起点，现在行业里真实或仿真可用的数据连这个起点都远远没到，他甚至说可能「0.6 分都不到」。1

所以，LLM 的问题像优秀学生缺更好的私教；机器人像刚开学，教室、实验室、考试系统、实习场地都缺。

3. 最有价值的数据，常常不是完美示范，而是「先错后对」

访谈里最反直觉的一段，是披萨任务的例子。最初客户会要求光轮提供「完全正确、完美执行」的长程任务数据：从冰箱拿饼、放调料、放进烤箱、按键完成。但迭代后他们发现，更有效的往往是「先失败再成功」的数据。比如拿蘑菇时掉到桌上，再捡起来放回披萨。1

这背后的学习逻辑很朴素：人不是靠看一百遍完美动作长大的。人在犯错、修正、比较不同做法时学得更快。模型也是如此。完美样本告诉它「标准答案是什么」，纠错样本告诉它「世界出岔子时该怎么办」。

这也解释了为什么机器人大脑不能只收集漂亮 demo。demo 里的世界太顺了，真实世界不会这么配合。

4. 数据金字塔：真机最准，但不是最大头

谢晨借用了「数据金字塔」的框架，把机器人的数据分成三层：最上层是真实机器人本体采集的数据，通常来自遥操作；中间是仿真生成的数据；底层是互联网数据和人类第一视角数据，比如人戴着眼镜采集日常操作。1

顶层数据最准确、最好用，但最难规模化。真实机器人要进不同家庭、工厂、酒店、沙漠、车间，还要不断换物体、换任务、换失败情况，这件事太慢，也太贵。

中层仿真负责放量。它可以制造大量场景、任务和评测；底层人类第一视角数据则把真实世界的物体、动作、任务和评价标准带回来。谢晨后面补了一句更重要的判断：数据金字塔不该被看成三层互不相干的堆叠，更像一个以仿真和评测为中心的闭环。真实世界的数据进入仿真，仿真再反过来服务训练和评测。1

5. 为什么特斯拉式数据闭环不一定复制到机器人

自动驾驶的数据闭环有一个前提：车已经大规模上路。车每天把真实世界的数据带回来，模型进步后再部署到车端，继续采更多数据。谢晨认为，这套逻辑到了机器人这里会断掉，因为世界上没有百万台机器人在各种场景里自动执行任务。1

这会改写机器人大脑的产业分工。做本体的公司不一定天然拿到最多数据；做大模型 / 世界模型 / VLA 的公司，反而可能靠本体无关数据训练通用大脑。本体公司负责硬件、部署、微调和落地；数据商提供仿真、评测和人类数据；场景公司提供真实任务与落地需求。1

这也是他为什么不太认同「机器人大脑公司像 Waymo，机器人公司像特斯拉」的简单对标。他更倾向于认为，机器人大脑要同时对标大模型和自动驾驶；它既需要通用智能，又要处理物理世界。1

6. 仿真不是视频生成，它至少要满足四个条件

谢晨对「仿真」给了一个比行业热词更严格的定义：它要在足够物理准确的环境中，可复现、可修正地产生行动，并观察行动结果。也就是说，仿真不只是看起来像真实世界，还要有物理参数、行动、复现性和可控扰动。1

按照这个定义，普通视频生成模型还不能算仿真。它可以预测下一帧，看起来也能生成世界变化，但很难稳定复现同一个结果，也很难在改变动作或初始条件后可靠地观察后果。

世界模型更接近仿真，但谢晨不把两者看成替代关系。他认为世界模型和仿真会共生：仿真给世界模型提供更扎实的物理 grounding，世界模型又能帮助仿真做更大范围的生成和泛化。1

7. 数据定价：越接近评测和纠错，越贵

谢晨把机器人数据信息拆成三部分：物理场景、经验轨迹 / 经验传授、评价指标。价格不是只按「录了多久」来算，而是看这三部分的质量。预训练数据更像标品，可能由多家模型公司平摊；后训练和评测数据更针对具体模型问题，价值和价格都更高。1

他给出的价格范围很宽：一小时数据可能从几十元到上千元不等；高质量数据通常在几百元到上千元区间。更贵的数据往往不是「一次做对」的视频，而是有真实物理、多样轨迹、失败修正、精细评价标准的数据。1

这也引出了本期标题里的 Recipe。数据金字塔只是一个概念，真正难的是配方：真机、仿真、人类第一视角、预训练、后训练、RL、评测各占多少，怎么混，怎么验证。谢晨说，要有效验证这个配方，可能需要几万张卡级别的训练能力。1

8. 谁在变激进：大模型公司开始认真下场

从谢晨的观察看，机器人大脑的路线还没有完全收敛，但过去一段时间已经出现变化：大厂的大模型团队、世界模型团队和 VLA 团队开始更认真地进入机器人。他点名说，阿里、OpenAI、DeepMind、英伟达都变得更激进，Pi 也可被看作 frontier lab 类型的玩家。1

他同时区分了几类公司：大模型派更相信零样本泛化、本体无关数据、仿真评测和人类数据；机器人公司内部开始分化，有的仍然偏真机和素材中心，有的转向仿真评测或人类数据；本体公司如果边界清楚，也可以在生态里占据稳定位置。1

他对国内的判断也不悲观：美国可能大脑发展更快，中国本体更快，但国内大模型能力、基础设施和人才密度都不低，大厂把资源转向具身智能后，有机会追上。1

高密度金句

[00:20:51] 「数据对于智能，有点类似教育行业对于人的学习。」1
[00:32:58] 「最有效的数据是先失败再成功的数据。」1
[00:36:06] 「如果架构上不具备零样本泛化能力，那它就不是真正通用智能的模型。」1
[00:51:00] 「最多的具身数据一定不是本体上提供的。」1
[00:55:57] 「不能说知识即模型，更像是不断提升的系统级能力。」1
[01:15:53] 「仿真对于机器人是必备条件，没有仿真这件事肯定做不成。」1
[01:27:51] 「视频模型现在还不能称之为仿真。」1
[01:50:47] 「真实机器人的数据肯定是被高估了，仿真还是被低估。」1
[02:03:27] 「Data Factory 是旧定义，我更希望把它定位成 Data Engine。」1
[02:30:19] 「如果在具身数据里只解决一个关键问题，我觉得是评测的规模化。」1
[02:33:09] 「智能越强，它对于知识和数据的饥渴程度会越高。」1

时间线：这集在讲什么

时间	主题	重点
00:01:07	谢晨自我介绍	北大物理、量化金融、Cruise、英伟达、蔚来，再到创办光轮智能；他把仿真视为自己找到的长期方向。1
00:20:51	数据定义	数据从静态数据集走向教育系统，核心是学习信号、反馈和经验传授。1
00:37:06	零样本泛化	大模型团队关心机械臂等相对简单本体上的零样本迁移，机器人客户更关心具体场景落地。1
00:49:08	大脑、本体、数据商、场景商	机器人产业不是单一公司通吃，而可能是四类角色协作。1
00:56:59	LLM vs 机器人	LLM 的难点在后训练和评测；机器人还缺预训练数据与规模化评价。1
01:07:52	数据产业史	ImageNet、Scale AI、RLHF 和评测驱动的数据产业，逐步从 Data Factory 走向 Data Engine。1
01:15:53	仿真角色	自动驾驶里仿真偏加速器，机器人里仿真偏前提条件。1
01:42:39	数据金字塔	真机数据、仿真数据、互联网与人类第一视角数据共同构成具身智能的数据金字塔。1
01:55:37	数据定价	预训练数据更标品，后训练和评测更贵；高质量机器人数据可能达到每小时几百到上千元。1
02:17:31	中美机器人数据版图	大模型派、机器人公司、本体公司和场景公司分化；大厂开始更认真投入机器人大脑。1
02:30:19	终局问题	评测是当前机器人数据最关键卡口；更长远看，模型会越来越需要环境来进行自我学习。1

读完带走

第一，别再把 AI 数据只理解成「更多标注」。在这期访谈里，数据真正变贵的地方，是它能不能像老师一样发现问题、制造考题、给出反馈。

第二，机器人大脑和自动驾驶不能简单类比。自动驾驶有车队，机器人还没有机器人社会；没有大规模真机数据，仿真和人类第一视角数据会变得更重要。

第三，仿真的价值不止在训练，更在评测。训练数据可以争论 sim-to-real，评测系统如果做不好，模型连自己有没有进步都很难判断。

第四，最值得关注的不是某一家数据公司卖多少小时数据，而是它能不能参与客户模型的 Recipe：什么数据有效，比例如何，后训练怎么接，评测怎么反馈。这才是从 Data Factory 变成 Data Engine 的分界线。

最后一个判断可能更长线：如果 AI 越聪明，越需要学习，那么数据问题不会消失，只会从「人喂数据」变成「系统提供环境，让模型自己练」。谢晨把这个终局想成一个仿真环境里的自我修炼场。这个说法有点科幻，但它解释了为什么他会把仿真当成机器人通用智能的前提条件。1

谢晨的数据金字塔：LLM撞墙之后，机器人大脑缺什么