凯时AG

以小广博登顶全球榜单：一款中国天下模子凭什么跑赢Google和NVIDIA？？？？？？

作者：阮紫瑄

宣布时间：2026-06-14 17:52:29

阅读量：5552

以小广博登顶全球榜单：一款中国天下模子凭什么跑赢Google和NVIDIA？？？？？？

上周，，全球天下模子权威评测系统WorldArena宣布了Track-1（视频质量赛道）的最终效果。。。。。

来自中国的“无界天下模子”（Boundless World Model，，BWM）一鸣惊人——开源版本BLM得分64.54，，在13个参评模子中斩获全球第一；；闭源版本BWM-Fast得分67.87，，在总计86个参评模子中位列全球第二，，距离榜首仅差0.39分。。。。。

这份榜单从视觉质量、运动质量、物理遵照性、内容一致性、三维空间准确性及可控性六大维度、16项细分指标举行综合评估。。。。。参赛阵容堪称豪华：Google、NVIDIA、高德、智元机械人、生数科技、极佳视界、流形空间、北京人形机械人立异中心……海内外顶尖团队悉数加入。。。。。

WorldArena Track-1 最终排名：BLM开源第一，，BWM-Fast总榜第二（数据泉源：WorldArena官方榜单）

值得注重的是，，BWM并非出自算力堆叠的大厂之手，，而是由欧洲科学院外籍院士、同济大学盘算机科学与手艺学院院长申恒涛教授牵头，，国家级青年人才朱磊及其团队，，联合考拉悠然、上海码极客配合研发。。。。。团队基于阿里巴巴开源的Wan2.2-TI2V-5B视频天生模子，，以50亿参数的小体量，，跑赢了诸多规模远超自己的敌手。。。。。

新闻传出后，，AI圈的反映可以用两个字概括：意外。。。。。在“算力即正义”的叙事之下，，一条不堆算力的“巧劲”蹊径凭什么登顶全球？？？？？？

天下模子：AI的“物理直觉”从何而来

要明确BWM的意义，，先得搞清晰“天下模子”究竟在做什么。。。。。

若是你看过波士顿动力的机械人视频，，可能会有一个疑问：那些流通的行动、精准的抓。。。。。，究竟是提前编好的程序，，照旧机械人真的“明确”了物理天下？？？？？？这个问题的谜底，，指向AI领域最前沿也最棘手的偏向之一——天下模子。。。。。

天下模子的野心很大：让AI不但“望见”画面，，还能“预见”接下来会爆发什么。。。。。给它一张初始照片，，再告诉它“机械人要把杯子放到桌上”，，它就能推演出整个行动历程的视频——就像给AI装了一双能预见未来的眼睛。。。。。这个能力一旦成熟，，机械人就不需要在真实天下里一次次试错，，而是在虚拟天下里先把行动“彩排”一万遍。。。。。

2026年，，天下模子成了AI圈最炙手可热的赛道。。。。。图灵奖得主Yann LeCun与谢赛宁合资建设AMI Labs，，据多家媒体报道融资规模达10亿美元级别；；李飞飞的World Labs一连加码；；贝索斯建设Project Prometheus押注制造业AI。。。。。具身智能也被列入“十五五”未来工业妄想，，政策与资源的双重驱动下，，全球科技巨头正疯狂涌入。。。。。

全球天下模子赛道主要手艺蹊径比照：BWM走的是"行动条件视频天生"蹊径

近两年，，天下模子这条赛道有一种显着的“军备竞赛”倾向：模子参数越来越大，，训练数据越堆越多，，算力卡集群越拉越长。。。。。在这种气氛下，，BWM团队选择了一条不那么“卷”的蹊径——不靠堆数据和拼算力，，而是靠架构立异和数据效率取胜。。。。。

详细而言，，这条差别化手艺蹊径包括三个层面的立异：

BWM差别化手艺蹊径的三个层面

这里需要睁开诠释一下DiT架构的价值。。。。。与古板扩散模子差别，，DiT用Transformer替换了原来的卷积主干网络。。。。。在处理长视频序列时，，注重力机制能够捕获更远距离的时空依赖关系——简朴说，，就是让模子在推演第100帧时，，还记得第1帧里杯子放在那里。。。。。而“动态影象机制”的引入，，则进一步缓解了长时序推演中的“灾难性遗忘”问题。。。。。

首帧指导机制使用初始帧信息锚定场景，，提升视频天生的时空连贯性；；双通路行动控制调制则将机械人行动轨迹精准映射到视频天生中，，实现行动可控的物理仿真。。。。。三项立异从场景初始化、长时序影象建模到行动响应控制多维度协同，，使BWM在时空连贯性、行动可控性与物理一致性上周全领先。。。。。

BWM手艺架构示意：从首帧指导到行动调制，，再到动态影象的完整流程

BWM以小参数目跑赢大模子，，这在天下模子领域并未几见。。。。。它不但是一项手艺效果，，更在提醒一个偏向：算力规模并非唯一的入场券，，架构原创才是真正的壁垒。。。。。

六大场景，，磨练“物理直觉”

天下模子好欠好，，最终要看它能不可在真实的机械人使命中“靠谱地预判”。。。。。BWM在评测中笼罩了六大类典范具身使命场景，，每一类都在磨练模子对差别物理交互的建模能力：

空间重排——按巨细排列积木、堆叠碗碟。。。。。挑战在于多物体的空间排序与堆叠稳固性。。。。。BWM能够坚持物体身份与目的结构，，维持稳固堆叠接触，，并展望自顺应夹爪控制。。。。。

铰链交互——翻开微波炉、掀开条记本电脑。。。。。挑战在于铰链约束下的开合动力学，，以及旋转历程中物体几何形态的连贯性。。。。。BWM在长时序推演中坚持了物体状态的长期性。。。。。

细腻操作——拧开关、挂杯子、按铃铛、盖章章。。。。。挑战在于极小的接触区域和准确的状态转变交互，，要求模子明确物体的可供性——也就是"这个工具能怎么用"。。。。。

双臂协同——双手转达积块、交接麦克风。。。。。挑战在于双臂同步运动与近距离交接中的碰撞阻止。。。。。BWM建模了同步双臂运动，，坚持了物体一连性。。。。。

长程放置——将物体放入柜子、瓶子扔进垃圾桶。。。。。挑战在于长时序场景一致性与遮挡下的物体漂移问题——BWM在遮挡场景下物体不会"凭空消逝"。。。。。

漫衍外泛化——团队用GPT-Image-2天生了从未见过的初始场景，，叠加原始机械人行动序列让BWM推演未来效果。。。。。面临物体外观的强烈转变，，BWM仍然坚持了行动驱动的动力学一致性和交互连贯性。。。。。这意味着模子并不是靠"背题"拿到高分，，而是真正学到了某种水平的物理纪律——即便面临训练历程中没见过的场景外观，，它依然能沿着给定的行动序列，，合理地推演出接下来会爆发什么。。。。。用更通俗的话说：模子拥有了一定水平的“物理直觉”。。。。。

空间重排：积木按巨细排序

铰链交互：翻开微波炉

细腻操作：悬挂杯子

双臂协同：转达积块

长程放置：物体放入柜子

漫衍外泛化：未见场景推理

BWM在WorldArena评测中的六大场景天生效果（泉源：GitHub开源项目）

这些场景的难度在于，，它们不是简朴的视频天生，，而是基于给定行动序列的物理仿真。。。。。模子需要明确“力”与“运动”的关系，，需要预判行动的效果，，需要对三维空间有准确感知。。。。。这正是天下模子区别于通俗视频天生模子的焦点能力。。。。。

WorldArena六大评测维度体现比照：BWM在物理遵照性和可控性上体现突出

开源与闭源并举，，天下模子需要生态

当宿天下模子行业保存一个显着的痛点：学术效果难验证，，顶尖手艺难复现。。。。。许多团队在论文里报告的效果令人印象深刻，，但外界既无法复现，，也难以判断真实能力界线在那里。。。。。

BWM团队接纳的战略是开源与闭源并行——开源版本BLM释放可复现的手艺底座，，降低科研与开发门槛；；闭源版本BWM-Fast则一连探索模子性能上限，，验证手艺蹊径的竞争力。。。。。

阻止发稿，，BLM的模子权重、推理代码已在GitHub和Hugging Face同步开放，，训练代码也在逐步释出中。。。。。GitHub客栈已收获凌驾1600颗Star。。。。。当足够多的研究者和开发者基于统一套开源底座做实验、提issue、孝顺代码，，天下模子的迭代速率将会显著加速。。。。。

从更大的行业视角来看，，天下模子赛道正在从“要不要做”进入“怎么做”的深水区。。。。。LeCun的JEPA蹊径、李飞飞的3D天生蹊径、华为系团队的类脑认知蹊径、以及BWM所代表的行动条件视频天生蹊径——差别的手艺路径正在交汇和分化。。。。。

英伟达机械人偏向认真人Jim Fan在红杉AI Ascent 2026大会上抛出了一个极具争议的论断：“VLA已死，，WAM当立”。。。。。随后，，复旦大学团队联合新加坡国立大学揭晓综述《World Action Models: The Next Frontier in Embodied AI》，，与Jim Fan的论断遥相呼应。。。。。

无论这场蹊径之争最终走向何方，，BWM的效果已经证实晰一件事：在天下模子的竞争名堂中，，中国团队不但在。。。。。，并且有实力站在最前面。。。。。同济大学空间智能团队体现，，这套手艺蹊径与全栈能力系统已形成，，未来将在空间智能与天下模子焦点问题上一连深度探索。。。。。而关于整个行业来说，，一个开源、高水平、一连迭代的天下模子底座，，或许正是目今最缺的那块拼图。。。。。

天下模子的竞争，，才刚刚最先。。。。。（本文首发钛媒体APP，，作者 | AGI-Signal，，编辑 | 焦燕）

　

【编辑者：张立伟】

相关标签

天下科技事情者日：第四届天下立异争先奖揭晓并颁奖当留学生遇上“中国龙” ：“我的心里有了热爱” “鲁南粮仓”滕州开镰收麦田间“铁牛”奔忙 #为2026高考加油#

文章点评

未盘问到任何数据！

揭晓谈论

◎接待加入讨论，，请在这里揭晓您的看法、交流您的看法。。。。。

【网站地图】