世界模型的 GPT-2 时刻:AI 创业者别把它当视频模型1×0:0018:380:08开场问题1:50第一部分:世界模型不是漂亮视频4:47第二部分:Scaling Law 是高摩擦版本8:24第三部分:Momenta 样本的启发11:58第四部分:创业者的四个检查项15:15第五部分:落地路线17:26收尾0:08主播如果一个创业者今天听到「世界模型」三个字,第一反应可能是:这是不是又一个被资本和发布会炒热的筐?据《屠龙之术》这期新节目,答案更复杂:它确实热,但热度背后不是单纯讲故事,而是 AI 从语言世界进入物理世界时绕不开的基础设施问题。0:28分析师所以本期我们不做术语科普,而是把原集里最值得 AI 产品创业者带走的判断压缩成四件事:世界模型到底和视频生成差在哪;它有没有类似大语言模型的 Scaling Law;为什么 Momenta 这类有真实业务飞轮的公司值得观察;以及,创业者现在到底该下注哪里、避开什么坑。0:50主播先说明素材边界:本期主要依据《屠龙之术》小宇宙 shownotes 和完整公开音频 ASR,没有混入原节目音频片段;原节目中提到的李飞飞世界模型分类文章、IT 桔子报告等,只作为原集论证链条的来源线索,不在这里扩写成新的事实报告。1:11分析师为什么这期值得单独做?因为世界模型这个词,正在同时进入视频生成、三维生成、自动驾驶、具身智能和 AI for Science 的叙事里。对创业者来说,真正的问题不是「这个词热不热」,而是它会把产品、数据、融资和交付假设全部重排。1:32主播我们会按创业会议里能用的方式来拆:先把概念拆薄,再看成本结构,再看商业样本,最后给出检查清单。你听完之后,不一定要马上做世界模型,但至少应该知道,当别人说自己在做世界模型时,你该问哪几个问题。1:50分析师原集最重要的第一刀,是把「看起来像」和「真的理解」切开。据《屠龙之术》转述李飞飞文章的说法,大语言模型像一个身处黑暗中的语言大师,能用文字描述世界,却没有真正经历光线、重力、摩擦、材质和因果链条。2:10主播这对创业者很关键。今天很多视频模型能生成一段雨夜高速避障的视频,灯光、雨水、镜头晃动都很好看。但如果你要把它用于自动驾驶训练,真正的问题不是画面美不美,而是刹车之后会不会追尾,往左打方向会不会切入邻车道,不同速度下障碍物会造成什么风险。2:33分析师所以世界模型不是「生成一段像真的视频」这么简单。原集用三个词拆开:渲染器、仿真器、规划器。渲染器服务人的眼睛,输出像素;仿真器输出环境状态,要合几何、物理和动力学;规划器则进一步输出动作,告诉机器人或车辆下一步该怎么做。2:53主播创业上对应三种完全不同的生意。做渲染器,你卖的可能是内容生产效率;做仿真器,你卖的是训练、测试和评估环境;做规划器,你才真正贴近机器人、自动驾驶、工业控制的决策闭环。把三者混叫成世界模型,会让团队误判产品边界。3:14分析师原集的终局判断是三线合一。理想的世界模型要能同时理解杯子:从任意角度渲染它的光影,模拟推倒后的运动轨迹,也规划一只机械手把它拿起而不摔碎。听起来像一句科幻话,但它给创业者的启发很现实:别只盯 demo,要问自己的产品到底站在这三层里的哪一层。3:38主播这里还有一个产品判断:如果你在渲染层,用户容忍的是视觉瑕疵和风格偏差;如果你在仿真层,用户关心的是状态是否可信、评估是否稳定;如果你在规划层,用户关心的是安全、责任和真实执行。层级越往后,商业价值可能越高,错误成本也越高。4:01分析师这也是为什么同样叫「世界模型」,公司估值逻辑会完全不同。有些公司其实更像下一代创作工具,有些更像机器人训练基础设施,有些则想成为物理世界的操作系统。投资人和客户听到同一个词,脑子里可能是三套账,创业者必须先把自己的账讲清楚。4:23主播如果把这个判断放回 AI 产品创业,最直接的启发是:不要用「未来都能做」来掩盖「今天到底交付什么」。今天卖的是生成视频,就按创作工具定价;今天卖的是仿真和评测,就把可复现性、覆盖率、边界条件讲清楚;今天卖的是动作决策,就先回答安全和责任。4:47主播第二个问题更尖锐:物理世界有没有类似大语言模型的 Scaling Law?原集的答案是可能有,但不是语言模型那种低摩擦、通用、平滑的版本。大语言模型预测下一个 token,世界模型要预测下一个物理状态,两者类比成立一半,另一半非常昂贵。5:07分析师语言数据来自网页、书、代码、百科,虽然质量越来越重要,但获取和复制的边际成本相对低。物理数据不一样:自动驾驶要上路,机器人要真实操作,工业场景要接传感器、设备、流程、合规和安全。每一条数据背后都有硬件、场地、人力和风险。5:29主播原集还有一个容易被忽视的判断:视觉和物理数据的信息密度未必高。用一句话说「司机看到儿童突然跑出,急刹并向左避让」,语义信息很集中;但用视频、雷达、轨迹和标注记录它,数据量巨大,真正关键的事实可能只发生在一瞬间。5:50分析师这意味着世界模型如果要达到语言模型式的能力跃迁,所需数据不是多一点,而可能是多几个量级。同时它还要覆盖长尾场景、筛出高质量数据,并在安全边界内闭环反馈。对创业者来说,最危险的错觉就是把「堆数据」想象成爬网页式的成本曲线。6:12主播原集把今天的世界模型类比到 GPT-2 左右:方向清楚,资本重注,能力在一些场景里显现,但还没到大众用户一用就震撼的 ChatGPT 时刻。这个比喻对融资叙事很有用,也很危险。它能解释为什么大家兴奋,但不能替代一张真实的成本表。6:33分析师所以如果你正在做世界模型、机器人训练、自动驾驶仿真,最好把自己的 Scaling Law 拆成四个问题:数据来自哪里;反馈多久回来;错误代价多高;有没有商业收入支撑你等到飞轮转起来。答不出这四个问题,就不要轻易说自己站在下一代基础模型上。6:54主播再往下问一层,数据不是「有」或者「没有」这么粗。它分成原始传感器数据、动作数据、环境状态、失败样本、人工接管、仿真回放、客户流程数据。不同数据对模型的价值差异极大。创业者要知道,自己真正缺的是规模、质量、多样性,还是反馈标签。7:17分析师反馈也不是一句话。语言模型可以靠人类偏好、代码测试、在线使用轨迹获得相对快的反馈;物理世界里,机器人一次抓取失败、车辆一次危险接管、工厂一次异常报警,都可能需要昂贵的复盘。反馈慢,意味着迭代慢;迭代慢,意味着融资节奏和产品承诺都要改。7:40主播这里有一个很实用的融资提醒:当你讲「世界模型也有 Scaling Law」时,投资人会自然联想到模型公司式的高毛利和高集中度。但如果你的数据依赖硬件部署、场地运营和人工维护,你可能更像重交付公司。两种资本故事完全不同,混讲会在下一轮融资时反噬。8:03分析师也别低估安全的摩擦。语言模型答错一个冷知识,用户可能重问;自动驾驶和机器人出错,可能是设备损坏、人员受伤、监管处罚。世界模型的 Scaling Law 如果存在,也会被安全、合规、责任和保险一起改写,不会是单纯的「参数更大、数据更多、能力更强」。8:24主播原集花了很长篇幅讲 Momenta,不是为了给某家公司背书,而是把它当成一个物理 AI 商业样本来观察。据原节目引用的招股书信息,Momenta 的关键不只在模型,而在自动驾驶业务、量产车、数据、车企合作和工程交付构成的飞轮。8:45分析师这个飞轮听起来很简单:更多量产车带来更多真实路况数据,更多数据训练更好的模型,更好的模型带来更多车企合作,更多合作再带来更多车和更多数据。难点在于,鸡和蛋必须同时存在。没有车,就没有数据;没有可用方案,就没有车企愿意让你上车。9:07主播原集提到的第一类壁垒是数据多样性。单一车企能收集自己的车型和用户数据,但 Momenta 这类第三方方案商如果覆盖不同品牌、车型、价格带、区域和驾驶风格,训练分布可能更复杂。这不自动等于胜利,但它解释了为什么垂直场景里的数据网络很重要。9:28分析师第二类壁垒是现金流。原节目引用 Momenta CEO 曹旭东的「门票理论」:物理 AI 一定要有先行业务作为支撑。因为它不是一个 App,上线后就能全球分发;它要上车测试、部署、合规、维护,还要和厂商磨合。没有现金流,很难熬过长周期研发。9:49主播第三类壁垒是工程化。原集说,自动驾驶早就不是论文比赛,难的是部署到不同车型、不同传感器、不同车企流程里,还要满足质量、安全、成本和交付周期。对 AI 产品创业者而言,这句话可以外推到很多行业:模型能力不是交付能力,demo 不是生产系统。10:13分析师这也是为什么物理世界的 AI 很可能不是一家通用模型公司吃掉所有。文本和语言相对通用,但自动驾驶、机器人、仓库、手术机器人、工业仿真,每个场景都有自己的传感器、动作空间、风险阈值和商业约束。底层表征也许共享,垂直数据壁垒会很硬。10:34主播如果你做的是企业 AI,也可以把这个样本翻译成自己的行业:你有没有足够多的客户现场?有没有真实流程数据?有没有把一次次部署沉淀成平台能力?有没有从项目制交付走向许可、订阅或结果分成?这些问题比「我用了什么模型」更接近护城河。10:54分析师原集里最值得借鉴的不是某个数字,而是飞轮结构。先行业务提供收入和真实场景,真实场景提供数据,数据改善模型,模型反过来提高交付效率和客户价值。这个结构一旦跑通,就会比单纯靠融资买算力更稳。跑不通,就容易变成高成本研发项目。11:15主播但要小心另一个陷阱:把任何客户数据都叫飞轮。真正的飞轮要能让模型或系统持续变好,并且让下一次交付更快、更便宜、更可靠。如果每个客户都是一次手工项目,每次都从头接系统、清数据、写规则,那只是服务收入,不是模型飞轮。11:37分析师所以看一家物理 AI 或行业 AI 公司,不妨问三句:新客户是否让老模型更好?老模型是否让新客户更快上线?规模扩大后毛利和交付周期是否改善?这三句比「我们有很多数据」更严苛,也更能区分真实平台和包装成平台的项目公司。11:58主播我们把原集压缩成创业者可以直接拿去开会的四个检查项。第一,别把「世界模型」当万能标签。你到底是做渲染、仿真,还是规划?客户付钱买的是好看的内容、可控的训练环境,还是真实动作决策?三者的客户、风险和收入模型都不同。12:19分析师第二,别只讲模型曲线,要讲数据曲线。你的数据是不是来自真实世界?能不能持续获取?有没有足够多样的长尾?反馈能不能闭环?如果答案是「先等模型更强」,那你可能是在押技术红利;如果答案是「业务每天都在给模型喂数据」,那才更接近飞轮。12:41主播第三,把安全和合规提前放进产品定义。语言模型答错一句话,很多时候可以重试;物理世界出错,可能就是事故、损失或监管问题。世界模型的产品经理不能只盯准确率,还要设计可解释的评估、回滚、人工接管和责任边界。13:01分析师第四,区分「能演示」和「能商业化」。原集反复提醒,世界模型的 GPT 时刻不会突然到来,而是先在自动驾驶、交互内容、机器人训练场、工业仿真等场景里逐步跑通。创业者要找的不是最宏大的终局词,而是最快能形成数据、收入和工程闭环的窄场景。13:23主播这也解释了为什么今天的世界模型创业,既可能是基础设施机会,也可能是服务和交付机会。如果你没有海量真实数据和硬件场景,也许不要硬卷基础模型;你可以做评估工具、仿真工作流、垂直数据治理、训练管线,或者帮客户把世界模型接进业务流程。13:46分析师但这里有一个反直觉:窄场景不等于小生意。物理世界的复杂性会把通用性拆碎,只要场景足够高价值、数据足够封闭、交付足够重,垂直模型和垂直工具也可能有长期位置。问题是,你是否真的拥有那条数据和交付通道,而不是只拥有一个概念。14:07主播我会给早期团队再加一个现实检查:如果明天基础模型能力翻倍,你的产品是更值钱,还是被替代?如果模型更强会让客户更需要你的数据、评估、部署和流程,那你在顺风位;如果模型更强会直接把你的功能吞掉,那你可能只是在补一个短期能力缺口。14:29分析师还有一个组织检查:你的团队是否同时有模型、产品、场景和交付四种能力?世界模型和物理 AI 很难只靠研究员闭门推进,也很难只靠销售堆客户。能把场景约束翻译成模型任务,再把模型输出翻译成可交付系统的人,会变得非常稀缺。14:50主播最后是节奏检查。原集判断世界模型还没到 ChatGPT 时刻,这意味着创业者要避免两种极端:一种是过早悲观,觉得没有通用爆款就没机会;另一种是过早乐观,用终局估值覆盖当下交付。更健康的做法,是用一个窄场景证明数据和商业闭环,再逐步扩大半径。15:15主播在落地层面,我会把世界模型相关机会分成三条路线。第一条是靠近客户工作流的工具层,比如仿真数据管理、场景库、评测报告、失败样本回放。这类机会不一定最性感,但它们接近预算,也能尽早看到客户愿不愿意付钱。15:36分析师第二条是垂直数据和训练管线。不是说你必须自己造机器人或造车,而是你要有办法把客户现场的数据变成可训练、可回放、可评估的资产。很多团队输在这里:模型 demo 做得很快,数据治理、标注口径、版本管理和安全审计却没有产品化。15:57主播第三条才是更靠近基础模型的路线。它需要更强的资本、更长的研发周期,也更需要真实世界入口。除非你已经有稳定数据源、算力预算、场景合作和交付团队,否则不要轻易把自己定位成「物理世界基础模型公司」。这个定位会抬高市场预期,也会放大每一次交付延迟。16:21分析师如果你的团队现在很早期,可以用一个简单排序来做决策:先找高价值、低频但痛感强的场景,验证客户是否愿意为仿真、评测或训练效率付钱;再看数据能否随着交付沉淀;最后才谈能不能跨场景泛化。顺序反过来,容易变成先讲宏大愿景,再到处找适配场景。16:43主播这也关系到产品包装。不要把每个功能都叫世界模型,客户不会为名词买单。自动驾驶客户要的是更少危险接管,机器人客户要的是更高抓取成功率,工业客户要的是更少停线和更快调参。世界模型只是背后的技术路线,前台价值仍然必须落到业务指标上。17:04分析师所以本期最实际的建议是:把「世界模型」从融资 PPT 的标题,挪到产品路线图的假设区。列出哪些假设已经被真实数据证明,哪些还停留在 demo,哪些需要客户现场配合。这样你既不会错过物理 AI 的机会,也不至于把公司押在一个还没到来的 GPT 时刻上。17:26主播最后回到标题:世界模型有没有 Scaling Law?原集给出的答案可以浓缩成一句话:可能有,但它不是语言模型的复制品,而是一个高摩擦、重资产、慢反馈、强安全约束的飞轮。它可能会转得很慢,但一旦转起来,会改变 AI 和物理世界的关系。17:47分析师给正在做 AI 产品的团队一句结论:别被「世界模型」这个词吓住,也别被它迷住。把它拆成可验证的问题:我掌握什么真实世界数据?我让模型预测什么状态?我如何从反馈中学习?我怎样用一个能赚钱的业务撑过长周期?这些问题比口号更接近创业真相。18:09主播本期到这里。你可以把《屠龙之术》原节目当作完整背景,把本期当作创业者会议前的速读版。下一次再听到有人说「我们在做世界模型」,先别急着点头,问他一句:你做的是渲染、仿真,还是规划?你的飞轮在哪里?
Añade más opiniones o contexto en torno a este contenido.