凯时AG

李飞飞:当视频天生、NVIDIA都自称天下模子,, ,,,,我们需要一个分类法

作者:林镇茂
宣布时间:2026-06-15 05:06:53
阅读量:63

李飞飞:当视频天生、NVIDIA都自称天下模子,, ,,,,我们需要一个分类法

“天下模子”或许是 2025 年以来 AI 领域里最热也最杂乱的看法。。。。。Sora出来的时间,, ,,,,OpenAI 管它叫天下模拟器;; ;;;Genie 让你在天生的画面里走来走去,, ,,,,也叫天下模子;; ;;;机械人公司说自己在做天下模子,, ,,,,NVIDIA 说 Omniverse 是天下模子的基础设施,, ,,,,连游戏引擎也被拉进了这个叙事。。。。。各人都在用统一个词,, ,,,,但各自说的又完全不是统一件事。。。。。

今天,, ,,,,李飞飞在个人 Substack 揭晓了一篇新文章,, ,,,,对这一看法举行了厘清。。。。。她首先回到强化学习教科书里谁人最经典的图(POMDP 闭环:智能体→行动→状态→视察→智能体),, ,,,,然后指出:现在被叫做“天下模子”的工具,, ,,,,着实是这个闭环的三种差别投影。。。。。输出像素(视察)的是渲染器,, ,,,,输出状态的是模拟器,, ,,,,输出行动的是妄想器。。。。。分类标准很是精练,, ,,,,就看你输出的是闭环里的哪个部分。。。。。

(泉源:《麻省理工科技谈论》)

她判断,, ,,,,三者之中,, ,,,,渲染器商业化最成熟但有天花板(悦目不即是物理准确),, ,,,,妄想器最令人兴奋但离真实安排最远(实验室演示和现实可用之间的鸿沟依然重大),, ,,,,而模拟器是被严重低估的要害枢纽。。。。。由于模拟器事情在几何、物理和动力学的层面上,, ,,,,既能向上投射为像素供人类消耗,, ,,,,也能向下推导出行动效果供机械人使用。。。。。掌握了模拟,, ,,,,就同时拥有了渲染和妄想的基础。。。;; ;;;反过来则不可。。。。。

这篇文章虽然也是 World Labs 的产品宣言。。。。。他们的 Marble 已经在同时输出高斯泼溅和碰撞网格,, ,,,,试图把渲染器和模拟器统一到一个模子里。。。。。文章末尾描绘的终局是一个统一的天下基础模子,, ,,,,能凭证下游需求在渲染、模拟和妄想之间自由切换。。。。。这个愿景是否能实现另说,, ,,,,但作为一个剖析框架,, ,,,,渲染器/模拟器/妄想器的三分法也许确实有助于穿透目今"天下模子"看法的一部分噪音。。。。。

全文译出如下。。。。。

“天下是所有爆发的事情的总和。。。。。”

——维特根斯坦,, ,,,,《逻辑哲学论》,, ,,,,1921

天下不是由文字组成的。。。。。

在早先的一篇文章中,, ,,,,我们提出空间智能是 AI 的下一个前沿,, ,,,,而天下模子是通向它的路径。。。。。在此,, ,,,,World Labs 团队和我想再深入一层:在现在被冠以“天下模子”之名的众多事物中,, ,,,,哪些功效模浚?檎嬲槌闪苏庵帜芰Γ浚?它们各自的用途又是什么???

语言模子赋予了机械对看法、词汇和推理的强盛掌控力,, ,,,,但物理天下,, ,,,,无论虚拟照旧真实,, ,,,,运行在完全差别的基底之上。。。。。语言模子学习的是文本的统计结构,, ,,,,天下模子学习的是空间与时间的统计结构:光怎样落在一个外貌上,, ,,,,一座花园从一个从未被相机捕获过的角度看起来是什么样子,, ,,,,物体怎样响应力并遵照物理定律。。。。。

这使得“天下模子”成了当下 AI 领域最主要、同时也最被滥用的术语之一。。。。。盘算机视觉、机械人学、强化学习和天生式 AI 都声称自己在构建天下模子,, ,,,,但各自指的是截然差别的工具。。。。。一个能天生华美但物理上不可能的火焰的视频模子,, ,,,,一个即兴天生可玩游戏的语言模子,, ,,,,一个忠实模拟燃烧历程的物理引擎,, ,,,,它们都被叫作统一个名字。。。。。

古希腊人历来无法就天下由什么组成告竣一致,, ,,,,不管是火、水照旧不可支解的原子,, ,,,,由于"天下"历来就不是简单的工具。。。。。它始终是某个头脑家为了推理某种总体性而使用的替换词。。。。。AI 继续了同样的问题,, ,,,,并且恰恰爆发在这个领域最需要准确性的时刻。。。。。

分类法背后的闭环

要厘清这种杂乱,, ,,,,可以从一张比上述所有手艺都更古老的图最先。。。。。所有强化学习课本,, ,,,,包括经典的 Sutton 和 Barto,, ,,,,几十年来一直使用统一幅图的变体来形貌智能体怎样与天下交互。。。。。这幅图的正式名称是部分可视察马尔可夫决议历程(POMDP),, ,,,,而“天下模子”这个术语最初的界说就属于这一古板。。。。。

一个智能体(可以是人、机械人或软件系统)执行行动。。。。。这些行动改变天下的状态。。。。。但智能体永远无法直接看到状态自己,, ,,,,它所吸收到的是视察:落在视网膜上的光子、传感器的读数、视频帧中的像素。。。。。新的视察指导新的行动,, ,,,,循环往复。。。。。

“状态”这个词需要拆开来看,, ,,,,由于在差别领域中它的寄义会爆发偏移。。。。。这里说的不是化学家的状态,, ,,,,不是固态、液态和气态的区别。。。。。这里是物理学家和机械人学家的状态:对天下在某一时刻所爆发的一切的完整形貌,, ,,,,包括每一个物体、每一个位置、每一个速率、每一种属性。。。。。状态是天下的底层现实,, ,,,,原则上是完整的,, ,,,,但关于身处其中的任何智能体来说永远不可直接视察。。。。。视察是智能体对这一现实的局部视角。。。。。行动则是智能体据此做出的回应。。。。。

这个闭环(智能体→行动→状态→视察→智能体)正是赋予“天下模子”这个术语其手艺寄义的结构。。。。。这个短语自己越发古老,, ,,,,可以追溯到 Kenneth Craik 在 1943 年的提议,, ,,,,他以为心智通过运行现实的“小比例模子”来举行推理,, ,,,,而到了 1980 年月末和 1990 年月初,, ,,,,这一看法被引入了神经网络领域。。。。。这个闭环同样诠释了人们今天使用这个术语时的寄义。。。。。现在被称为天下模子的种种工具,, ,,,,现实上是统一个闭环的差别投影,, ,,,,每一种输出的是闭环中差别的组成部分。。。。。

天下模子的三种功效

第一种天下模子是渲染器。。。。。渲染器输出的是视察,, ,,,,详细来说是面向人眼的像素,, ,,,,而最主要的品质指标是视觉保真度。。。。。一个将文本提醒转化为影戏级航拍镜头的视频模子就是渲染器;; ;;;像 Google的Genie 3 或 World Labs 自己的 RTFM 这样的交互式系统也是渲染器,, ,,,,它们凭证用户输入实时天生画面。。。。。这类模子不具备对三维结构的显式明确。。。。。它天生的是寓目者会看到的画面,, ,,,,而不是事物自己的样子。。。。。航拍镜头里的修建从空中看也许完善无瑕,, ,,,,但试着在下面的都会中穿行,, ,,,,它们就会崩塌。。。。。

第二种是模拟器。。。。。模拟器输出的是状态:一种在几何、物理或动力学上忠实的天下表征,, ,,,,人类和盘算机程序都能在其上举行盘算和交互。。。。。渲染器的左券是纯视觉的,, ,,,,而模拟器的左券是结构性的,, ,,,,它要求几何经得起磨练,, ,,,,物理遵照牛顿定律,, ,,,,动力学的行为切合物理规则的预期。。。。。模拟器同时服务两类用户。。。。。修建师、设计师、影戏人、游戏开发者等专业人士需要逾越视觉可信度的准确性。。。。。强化学习智能体、机械人控制器、自动驾驶车辆等盘算机程序则把模拟器看成训练场,, ,,,,在其中大规模地与天下交互,, ,,,,测试那些在现实中要么危险、要么腾贵、要么基础不可能执行的场景。。。。。

第三种是妄想器。。。。。妄想器输出的是行动。。。。。给定一个视察和一个目的,, ,,,,妄想器回覆的问题是:智能体下一步该做什么。。。。。在许多意义上,, ,,,,妄想器是渲染器的逆历程。。。。。渲染器以行动为输入、产出视察,, ,,,,妄想器以视察为输入、产出行动,, ,,,,从而闭合了感知-行动回路。。。。。视觉-语言-行动模子(VLA)、基于模子的系统,, ,,,,以及新一波的天下行动模子(World Action Models),, ,,,,都是妄想器的差别实验:让系统能够在非结构化的天下中决议机械人应该做什么。。。。。

以上三个种别涵盖了目今现着实落地的大部分事情,, ,,,,而它们之间的区分在实践中很有用。。。。。但这三个种别并非从基础上相互割裂。。。。。它们共享统一套关于天下怎样运作的底层知识:几何、物理、动力学。。。。。一个能从恣意角度渲染一只杯子的模子,, ,,,,原则上也应该能模拟杯子被推动后会爆发什么,, ,,,,并计齐整只手去把它拿起来。。。。。越来越多最有意思的研究,, ,,,,正在有意地模糊这三者之间的界线。。。。。

图丨三种天下模子(泉源:Substack)

为什么模拟是要害枢纽

在三个种别中,, ,,,,模拟器受到的公众关注最少,, ,,,,却是三者中最主要的。。。。。这篇文章想纠正这种差池称。。。。。

渲染器是现在商业化水平最高的。。。。。大宗图像或文本转视频产品正在消耗和企业市场快速扩张。。。。。Google 的 Nano Banana 模子将渲染器级别的图像天生能力送到了可能数以亿计的用户手中。。。。。手艺是着实的,, ,,,,市场也是着实的。。。。。然而渲染器优化的目的是视觉可信度而非物理准确性,, ,,,,这个天花板很主要。。。。。它们的输出很漂亮,, ,,,,但你不可用它们来设计一座修建或训练一个机械人。。。。。

妄想器是最令人兴奋也最不可熟的,, ,,,,它与快速演进的机械人学习领域亲近相关。。。。。已往两年里,, ,,,,这个领域产出了不少在视频里看起来令人印象深刻的机械人演示,, ,,,,但我们需要坦诚地面临这些演示事实展示了什么。。。。。险些所有演示都局限于高度受限的实验室情形,, ,,,,物体种类有限,, ,,,,使命时长很短。。。。。没有一个经受过真实天下安排所要求的重漂后、多样性和一连时长的验证。。。。。从一段精彩的演示视频到一个能在厨房、客栈或手术室中可靠事情的机械人,, ,,,,中心的鸿沟依然重大。。。。。

只管云云,, ,,,,商业上的押注规模仍然可观。。。。。一波资金丰裕的新进入者正在争相推出通用妄想系统,, ,,,,而大型基础设施玩家则在将妄想能力架设在更普遍的模拟客栈之上。。。。。

模拟是毗连两者的桥梁。。。。。若是说语言是对天下的笼统,, ,,,,像素是对天下的投影,, ,,,,那么几何、物理和动力学就是天下自己。。。。。模拟器必需在这个层面上事情:它是结构性的骨架,, ,,,,视觉体现(供渲染器使用)和行动效果(供妄想器使用)都可以从中推导出来。。。。。

一个掌握了模拟的模子,, ,,,,能够将它的明确投射为供人类消耗的像素,, ,,,,也能投射为供具身智能体使用的行动展望。。。。。而一个只掌握了渲染或只掌握了妄想的模子,, ,,,,两者都做不到。。。。。这里的商业空间极其辽阔。。。。。仅 NVIDIA 的 Omniverse一 项,, ,,,,其目的市场规模据该公司预计就凌驾万亿美元,, ,,,,涵盖工厂、客栈、供应链和数字孪生。。。。;; ;;;等搜盗贰⒆远菔徊馐浴⑿藿墒踊⒐こ躺杓啤⒁┪锓⒚,, ,,,,全都依赖于某种形态的模拟。。。。。

这个领域最难题的开放性问题也集中在这里。。。。。带有显式几何、材质属性和物理标注的三维数据,, ,,,,比渲染器逊用的互联网视频稀缺了几个数目级。。。。。sim-to-real 差别(模拟中的物体行为与真实天下中的行为之间的差别)仍然保存。。。。。天生式模拟器在此基础上还引入了新的风险:AI 天生的几何体可能看起来准确,, ,,,,但现实上包括自相交或过失比例的问题,, ,,,,导致物理模拟爆发谬妄的效果。。。。。大规模的多物理模拟(刚体、可变形物体、流体、布料所有同时交互)的盘算本钱仍然比简单领域的模拟横跨几个数目级。。。。。

在 World Labs,, ,,,,Marble 是我们在这个偏向上的第一步。。。。。它接受多模态输入(文本、图像、视频或空间草图),, ,,,,天生可探索的 3D 情形,, ,,,,同时输出用于视觉探索的高斯泼溅(Gaussian splats)和供物理引擎操作的碰撞网格。。。。。但Marble只是一段漫长弧线的第一章。。。。。随着渲染、模拟和妄想之间的界线最先消融,, ,,,,整个领域都在誊写这个故事。。。。。

界线正在消融,, ,,,,以及接下来会爆发什么

目今这个领域最主要的趋势是,, ,,,,三个种别正在最先融合。。。。。背后的共识是:渲染一个天下、模拟它、在其中行动,, ,,,,所需要的知识在很洪流平上是相同的。。。。。沿用前面的例子,, ,,,,一个真正明确杯子怎样放在桌上的模子(它的几何形状、材质属性、对力的响应等等),, ,,,,应该能够从恣意角度渲染这只杯子,, ,,,,模拟杯子被推动后会爆发什么,, ,,,,并计齐整只手去拿起它。。。。。三个种别是统一种底层明确的三种投影。。。。。

好比,, ,,,,最近已有少量但在增添中的事情来自差别的机械人实验室,, ,,,,它们展示了一种至少在看法上建设的可能性:一个预训练的视频渲染器可以作为联合天下展望和行动展望的主干网络,, ,,,,让简单模子同时想象“会爆发什么”和“该做什么”,, ,,,,从而在渲染器和妄想器之间架起桥梁。。。。。World Labs 的 Marble 已经能从简单模子同时输出高斯泼溅和碰撞网格,, ,,,,消解了渲染器与模拟器之间的界线。。。。。每一个层面都在从被动输出转向交互式系统:渲染器变得可以响应行动条件,, ,,,,模拟器天生的天下变得越发可控和可编辑,, ,,,,妄想器最先举行审慎推理而不但仅是做出反映。。。。。

逻辑上的终点是一个统一的天下模子:一个基础模子,, ,,,,能够渲染照片级真实的视图、天生物理上准确的结构、妄想行动序列,, ,,,,并凭证下游使用者的需求在差别输出模态之间切换。。。。。我们仍将面临一系列严肃的挑战。。。。。数据名堂极不平衡,, ,,,,渲染器坐拥海量互联网视频,, ,,,,而模拟器和妄想器则面临3D资产和机械人树模数据的严重匮乏。。。。。针对视觉美感的优化可能会牺牲机械人或高保真模拟所需的精度。。。。。在简单架构内协调这些张力,, ,,,,是当今天下模子研究的焦点开放问题,, ,,,,也是 World Labs 在一连演进 Marble 的历程中致力于解决的。。。。。

(泉源:Substack)

但大偏向已经很清晰。。。。。从 1980 年月末至今,, ,,,,这个领域押的始终是统一个赌注:只要天下模子足够富厚,, ,,,,智能体望见天下、构建天下、在其中行动所需的工具就全在内里了。。。。。这个赌注现在正在驱动一整代人的研究。。。。。而真正给它加上砝码的,, ,,,,是已经在爆发的融合:渲染、模拟、妄想三条线,, ,,,,每条都已经各自撑起价值数十亿美元的工业,, ,,,,它们早先是自力的研究偏向,, ,,,,现在最先汇到一起。。。。。当界线消逝,, ,,,,三者合流将重新界说一件更大的事:机械智能与它所栖居的物理天下之间的关系,, ,,,,也就是空间智能的久远走向。。。。。

语言给了机械一种谈论这个天下的方式。。。。。天下模子,, ,,,,则是机械最终得以明确、想象、推理并与之交互的途径。。。。。

参考资料:

1.https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models

注:首图由 AI 辅助天生

 

文章点评

未盘问到任何数据!

揭晓谈论

◎接待加入讨论,, ,,,,请在这里揭晓您的看法、交流您的看法。。。。。

最新文章

热门文章

随机推荐

【网站地图】