凯时AG

2026-06-15 14:54:21 设为首页 | 加入珍藏

英伟达提出Gamma-World：天下模子从「一个人玩」到「多人共处」

2026-06-15 14:54:21 宣布泉源：西西软件园作者：梁伟伦浏览：6747次

允中发自凹非寺量子位 | 公众号 QbitAI

目今视频天下模子在单智能体设定下已经走得相对成熟。。。。。。

但多智能体场景——多个玩家共享统一个演化天下，，，，，，在架构层面一直缺乏系统性的解决方案。。。。。。

问题不在于算力不敷，，，，，，而在于现有的位置编码和注重力机制，，，，，，从设计上就没有为多个主体预留接口。。。。。。

克日，，，，，，NVIDIA联合清华大学、多伦多大学和Vector Institute宣布Gamma-World（γ-World），，，，，，从RoPE扩展和注重力拓扑两个底层组件入手，，，，，，给出了一套系统性的谜底。。。。。。

论文问题：Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

为什么多智能体天下建模是一个难题问题

现有视频天下模子险些都建设在单智能体假设之上：

给定一个玩家的行动序列，，，，，，展望该视角下的未来视察。。。。。。

多智能体设定从基础上改变了这个问题的性子——模子不再只需展望「这个智能体接下来看到什么」，，，，，，而是需要同时回覆：

玩家A的移动应当在玩家B的视野中怎样泛起？？？？？？两名玩家同时操作统一个物体，，，，，，状态应当怎样演化？？？？？？

这不是「天生N段自力视频」的问题，，，，，，而是「天生N个耦合视角对统一个演化天下的差别投影」。。。。。。

在手艺层面，，，，，，这意味着模子必需同时维护三重一致性：

时间一致性：画面在时序上连贯；；；；；；跨视角一致性：A在B视野中的泛起与A自身轨迹吻合；；；；；；交互一致性：多个智能体对共享情形的操作在所有视角中爆发一致的状态转变。。。。。。

单智能体框架在设计上只包管了时间一致性，，，，，，后两者从未被纳入考量——

这是架构层面的结构性缺失，，，，，，无法通过增添数据量或模子规模来填补。。。。。。

在Gamma-World之前，，，，，，这个偏向并非没有人实验。。。。。。

Solaris已经在双人Minecraft上取得了不错的效果，，，，，，但它袒露出的两个结构性问题，，，，，，恰恰说明晰为什么将单智能体框架直接「扩展」到多智能体，，，，，，是一条走欠亨的路。。。。。。

其一，，，，，，身份编码破损了对称性

Solaris为每个玩家分配牢靠的可学习槽位身份向量，，，，，，实质上将「1号槽」和「2号槽」学成了两种差别的角色类型。。。。。。

在真实的多智能体天下中，，，，，，能力相同的玩家实质上可交流，，，，，，这种对称性的缺失使模子学到的是「特定角色的交互模式」，，，，，，而非「多个一律主体共享天下的纪律」，，，，，，泛化性从基础上受限，，，，，，且一旦需要支持新的玩家数就必需重新训练。。。。。。

其二，，，，，，全毗连注重力保存扩展性天花板

让所有玩家的token两两直接交互，，，，，，盘算本钱随玩家数目平方增添——

从2人扩展到8人，，，，，，盘算量从477.8G增至7.6T，，，，，，增添约16倍。。。。。。

这是算法重漂后决议的天花板，，，，，，无法通过工程优化解决。。。。。。

两个问题指向统一个结论：多智能体天下模子需要的不是修补，，，，，，而是对两个焦点组件的重新设计。。。。。。

有关怎样体现智能体身份，，，，，，以及怎样设计跨智能体通讯。。。。。。

焦点设计一：Simplex Rotary Agent Encoding，，，，，，让玩家「身份等距、职位一律」

这个设计要解决的焦点矛盾是：

怎样让模子既能区分差别的玩家，，，，，，又不让任何玩家在体现上比其他玩家「更特殊」。。。。。。

视频Transformer用RoPE（旋转位置编码）来表达位置关系——给每个信息片断分配一个旋转角度，，，，，，两个片断之间的位置差别通过旋转角度的差来表达。。。。。。

标准视频RoPE编码三个轴：时间、高度、宽度。。。。。。

Gamma-World加了第四个轴——玩家轴，，，，，，在不改变原有时空编码的条件下，，，，，，为智能体身份单独留出一个维度。。。。。。

轴加起来容易，，，，，，难的是这个玩家轴上的编码怎么设计。。。。。。

直接编号行欠亨。。。。。。

给玩家顺次号分配角度，，，，，，会导致差别玩家对之间的旋转距离不等：1号和2号差1，，，，，，1号和3号差2。。。。。。

「1号与2号的关系」和「1号与3号的关系」在体现空间中并不等距，，，，，，只管物理上完全等价。。。。。。置换对称性被编码方式自己直接破损。。。。。。

可学习的槽位嵌入也不可。。。。。。

每个座位绑定一个牢靠的可训练向量，，，，，，模子被锁死在训练时的玩家数目上，，，，，，无法扩展，，，，，，这正是Solaris的焦点局限。。。。。。

正纯粹形：所有玩家自然等距

Gamma-World的解法很优雅：把所有玩家放在一个正纯粹形（regular simplex）的极点上。。。。。。

什么意思？？？？？？

想象一个正三角形，，，，，，所有极点之间的距离完全相等，，，，，，没有哪个极点更特殊。。。。。。

2个玩家 → 线段的两头3个玩家 → 等边三角形的三个极点4个玩家 → 正周围体的四个极点

无论哪两个玩家，，，，，，他们在旋转角空间里的距离完全一样。。。。。。模子看到恣意两个玩家，，，，，，他们之间的几何关系是对称的，，，，，，谁也不比谁特殊。。。。。。

这个编码不需要任何可学习的参数

训练时，，，，，，活跃玩家被随机分配到极点池里的差别位置，，，，，，模子只能靠几何坐标来认人。。。。。。

推理时想支持更多玩家，，，，，，从统一个极点池里多取几个极点就行，，，，，，架构不必改，，，，，，也不必重新训练

这也是Gamma-World能做到「双人数据训练、四人场景直接跑通」的基础原因。。。。。。

焦点设计二：Sparse Hub Attention，，，，，，从「全毗连」到「枢纽广播」

跨智能体通讯是多智能体天下模子绕不过去的需求，，，，，，但以往方案的做法价钱过高——

让所有玩家的所有token两两直接交互，，，，，，盘算本钱随玩家数目平方增添：从2人扩展到8人，，，，，，盘算量从477.8G涨至7.6T，，，，，，增添约16倍。。。。。。

这是算法重漂后决议的天花板，，，，，，无法通过工程优化解决。。。。。。

问题的泉源在于一个过失的假设：每个token级别的细节都需要在所有玩家之间直接转达。。。。。。

事实上，，，，，，玩家A放下方块，，，，，，玩家B需要感知的只是「天下里泛起了一个方块」——这是一个紧凑的天下状态转变，，，，，，而非A的所有视觉细节。。。。。。

但玩家之间真的需要「直接语言」吗？？？？？？

全毗连注重力隐含了一个假设：每个token级别的细节都需要在所有玩家之间直接转达。。。。。。而这个假设在绝大大都场景下是过失的。。。。。。

Gamma-World引入一组可学习的hub token（枢纽token），，，，，，组成轮辐式拓扑：

每个智能体只与自身历史及hub token交互；；；；；；hub token汇聚所有智能体的信息压缩为共享状态摘要，，，，，，再广播回各智能体流；；；；；；差别智能体之间的直接注重力被完全屏障，，，，，，信息经由两跳转达：智能体→hub→智能体

这一结构将盘算本钱从平方重漂后压至线性重漂后。。。。。。

△Sparse Hub Attention（蓝线）vs Dense Attention（红线），，，，，，随玩家数目增添FLOPs差别靠近8倍

值得强调的是，，，，，，希罕枢纽注重力不但是节约了算力，，，，，，它自己也是一个更合理的归纳偏置——在架构层面显式编码了「跨智能体信息应经由共享天下状态瓶颈」这一先验，，，，，，而非期待模子从数据中隐式学习。。。。。。

推理时通过自力的KV cache保存希罕通讯拓扑，，，，，，最终实现24 FPS实时行动响应推演

要领总览

（注：要领总览，，，，，，左侧为同步多智能体输入，，，，，，中心为Tokenization，，，，，，右侧为Causal Multi-Agent DiT，，，，，，下方划分展示Simplex Rotary Agent Encoding和Sparse Hub Attention的示意图）

整体架构输入同步的多智能体视察和行动序列，，，，，，用共享的视觉编码器和行动编码器对每个玩家流划分tokenize，，，，，，再通过带希罕枢纽注重力的因果多智能体DiT天生未来多路rollout。。。。。。

推理时使用KV cache实现流式天生，，，，，，每个玩家流和枢纽各维护自力缓存。。。。。。

焦点设计三：三阶段蒸馏，，，，，，从「看得全」到「跑得快」

天生质量和推理实时性在扩散模子里自然是一对矛盾：双向模子质量最高但无法流式推理，，，，，，因果模子支持实时天生但质量下降。。。。。。

Gamma-World用三阶段训练在两者之间架桥。。。。。。

第一阶段：逊Й向西席。。。。。。

西席模子可会见完整序列（包括未来。。。。。。，，，，，，提供最高质量的生身漫衍，，，，，，仅用于训练阶段，，，，，，不加入推理。。。。。。

第二阶段：训练因果学生。。。。。。

学生模子只能看到目今及已往的帧，，，，，，连系希罕枢纽注重力适配流式推理。。。。。。

要害在于将学生完整训练为多步扩散模子，，，，，，而非仅作为蒸馏热身——蒸馏之前学生已能爆发合理的推演效果，，，，，，为下一阶段提供稳固起点。。。。。。

第三阶段：条件Self-Forcing蒸馏。。。。。。

以因果学生为起点、双向西席为目的，，，，，，通过漫衍匹配蒸馏（DMD）将多步采样压缩为4步采样

蒸馏在自回归self-rollout下举行，，，，，，训练漫衍与推理漫衍对齐，，，，，，有用缓解误差累积。。。。。。

全程保存初始帧与逐智能体行动序列作为条件信号，，，，，，确保压缩后的模子行动可控性不退化，，，，，，最终实现24 FPS流式推演

实验效果

1、周全逾越现有最强

在多人Minecraft情形的五类场景中，，，，，，比照帧拼接方案和现在最强的多智能体天下模子Solaris，，，，，，Gamma-World在影象、空间定位、移动、制作、跨视角一致性五个场景周全领先，，，，，，要害指标FVD（视频天生质量的评估指标）平均降幅凌驾40%。。。。。。

2、消融：每一步设计都有现实效果

消融效果说明从「学习槽位身份」换成「纯粹形编码」，，，，，，FVD从256.3降至228.5，，，，，，没有增添任何参数，，，，，，仅通过改变编码方式就带来了整个消融中最大的单步增益

这个效果的意义不但是「纯粹形编码更好」，，，，，，而是证实晰一件更基础的事：

在架构中显式编码置换对称性约束，，，，，，比让模子从数据中隐式学习这种结构，，，，，，在样本效率和最终性能上都有显著优势

对称性是一个先验知识，，，，，，把先验知识编进架构比让模子自己去发明，，，，，，原来就更有用率——消融实验用数字验证了这一点。。。。。。

3、双人训练，，，，，，四人直接跑通

△零样本四人泛化，，，，，，模子仅用双人数据训练，，，，，，推理时直接天生四路同步视角

模子仅在双人数据上训练，，，，，，推理时从极点池中启用两个新极点，，，，，，直接天生四路同步视角，，，，，，无需修改任何架构参数，，，，，，四路画面维持共享天下状态的一致性。。。。。。

这个效果直接验证了纯粹形编码的焦点设计目的：泛化到恣意玩家数，，，，，，不需要见过谁人玩家数的训练数据。。。。。。

无论是Solaris、Enigma Labs的Multiverse照旧Odyssey的Agora-1，，，，，，这些事情都证实晰多智能体天下模子可以做，，，，，，但同时都缺乏这样的拓展泛化能力。。。。。。

4、两种典范使命的定性展示

△两智能体交互示例——两路视角坚持同步，，，，，，Agent 1的行为在Agent 2的视角中被准确反映

在「放置与挖掘」使命中，，，，，，两路视角实时同步，，，，，，一方的操作在另一方画面中获得准确反映。。。。。。

在「制作塔楼」使命中，，，，，，双方协同搭建的方块在各自视角里位置一致，，，，，，共享天下状态完整维护。。。。。。

当玩家暂时移出对方视野时，，，，，，模子仍能维持准确的空间定位——这说明模子追踪的是共享的潜在天下状态，，，，，，而非自力天生各路视频后拼在一起。。。。。。

5、从游戏到真实机械人

△从游戏agent到真实双臂机械人协同，，，，，，模子天生坚持协同运动的未来帧

研究团队将Gamma-World应用于RealOmin-Open数据集的真实双臂机械人协同使命，，，，，，以左右两条机械臂划分作为自力智能体。。。。。。

天生的未来帧坚持了双臂的协同运动与空间结构，，，，，，统一套框架从Minecraft多人场景直接迁徙至真实物理操作，，，，，，无需特殊适配。。。。。。

这一效果验证了多智能体天下模子框架自己的通用性，，，，，，而非针对特定场景的专项方案。。。。。。

这也让人忍不住往更远处想：现实天下中险些所有有价值的场景，，，，，，实质上都是多个主体在共享情形中协作或博弈——手术室里的多臂协同、工厂产线上的多机械人调理、自动驾驶中的多车交互。。。。。。

若是一套统一的多智能体天下模子框架能够笼罩这些场景，，，，，，它所代表的就不但是仿真能力的提升，，，，，，而是为整个Physical AI领域提供了一个全新的数据生产和战略训练基础设施。。。。。。

Gamma-World的三项焦点设计，，，，，，纯粹形旋转智能体编码、希罕枢纽注重力、条件师生蒸馏，，，，，，划分对应多智能体天下建模中三个恒久悬而未决的问题：

身份的对称体现、交互的高效建模、质量与实时性的同时兼顾。。。。。。

每一项都不是修补，，，，，，而是在确认原有路径走欠亨之后，，，，，，从更底层的建模原则重新给出的谜底。。。。。。

三项设计背后有一个配合的要领论：将对问题结构的明确直接编码进架构，，，，，，而非期待模子从数据中自行发明。。。。。。

一个真正明确多智能体天下的模子，，，，，，应当在结构上就是对称的，，，，，，而不是见过足够多的数据之后，，，，，，恰巧学出了近似对称的行为。。。。。。

前者是明确，，，，，，后者只是拟合。。。。。。

Gamma-World零样本泛化到四人场景的效果，，，，，，正是对这一判断最直接的实验验证。。。。。。

这一要领论也指向一个更大的可能性：当多智能体天下模子的天生质量足以忠实还原真实物理纪律，，，，，，训练数据的收罗方式自己就会爆发根天性转变——

从依赖真实场景的物理收罗，，，，，，转向由神经网络驱动的大规模模拟天生

受限于人力、空间和时间的数据瓶颈，，，，，，将有可能被无限可扩展的神经仿真所替换。。。。。。

从方块天下到机械臂，，，，，，Gamma-World迈出的是验证性的第一步。。。。。。

真正的天下模子，，，，，，学会的不应只是「画面」，，，，，，而是「规则」。。。。。。

论文：Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players机构：NVIDIA/清华大学/多伦多大学/Vector Institute项目主页：https://research.nvidia.com/labs/sil/projects/gamma-world/GitHub：https://github.com/nv-tlabs/Gamma-WorldHuggingface: https://huggingface.co/papers/2605.28816

“还应完善跨部分协同羁系机制，，，，，，兼顾规则共建与行业自律。。。。。。让人工智能在可控、可管、可用的框架下康健生长，，，，，，既成为经济增添新动能，，，，，，又守住社会清静、工业清静底线。。。。。。”朱克力说。。。。。。

责任编辑：李淑琦校对：农淑娟

今日热门

相关推荐

【网站地图】