凯时AG

以小广博登顶全球榜单:一款中国天下模子凭什么跑赢Google和NVIDIA? ?????

作者:阮紫瑄
宣布时间:2026-06-14 17:52:29
阅读量:5552

以小广博登顶全球榜单:一款中国天下模子凭什么跑赢Google和NVIDIA? ?????

上周,,全球天下模子权威评测系统WorldArena宣布了Track-1(视频质量赛道)的最终效果。。 。。。

来自中国的“无界天下模子”(Boundless World Model,,BWM)一鸣惊人——开源版本BLM得分64.54,,在13个参评模子中斩获全球第一;;闭源版本BWM-Fast得分67.87,,在总计86个参评模子中位列全球第二,,距离榜首仅差0.39分。。 。。。

这份榜单从视觉质量、运动质量、物理遵照性、内容一致性、三维空间准确性及可控性六大维度、16项细分指标举行综合评估。。 。。。参赛阵容堪称豪华:Google、NVIDIA、高德、智元机械人、生数科技、极佳视界、流形空间、北京人形机械人立异中心……海内外顶尖团队悉数加入。。 。。。

WorldArena Track-1 最终排名:BLM开源第一,,BWM-Fast总榜第二(数据泉源:WorldArena官方榜单)

值得注重的是,,BWM并非出自算力堆叠的大厂之手,,而是由欧洲科学院外籍院士、同济大学盘算机科学与手艺学院院长申恒涛教授牵头,,国家级青年人才朱磊及其团队,,联合考拉悠然、上海码极客配合研发。。 。。。团队基于阿里巴巴开源的Wan2.2-TI2V-5B视频天生模子,,以50亿参数的小体量,,跑赢了诸多规模远超自己的敌手。。 。。。

新闻传出后,,AI圈的反映可以用两个字概括:意外。。 。。。在“算力即正义”的叙事之下,,一条不堆算力的“巧劲”蹊径凭什么登顶全球? ?????

天下模子:AI的“物理直觉”从何而来

要明确BWM的意义,,先得搞清晰“天下模子”究竟在做什么。。 。。。

若是你看过波士顿动力的机械人视频,,可能会有一个疑问:那些流通的行动、精准的抓。。 。。。,究竟是提前编好的程序,,照旧机械人真的“明确”了物理天下? ?????这个问题的谜底,,指向AI领域最前沿也最棘手的偏向之一——天下模子。。 。。。

天下模子的野心很大:让AI不但“望见”画面,,还能“预见”接下来会爆发什么。。 。。。给它一张初始照片,,再告诉它“机械人要把杯子放到桌上”,,它就能推演出整个行动历程的视频——就像给AI装了一双能预见未来的眼睛。。 。。。这个能力一旦成熟,,机械人就不需要在真实天下里一次次试错,,而是在虚拟天下里先把行动“彩排”一万遍。。 。。。

2026年,,天下模子成了AI圈最炙手可热的赛道。。 。。。图灵奖得主Yann LeCun与谢赛宁合资建设AMI Labs,,据多家媒体报道融资规模达10亿美元级别;;李飞飞的World Labs一连加码;;贝索斯建设Project Prometheus押注制造业AI。。 。。。具身智能也被列入“十五五”未来工业妄想,,政策与资源的双重驱动下,,全球科技巨头正疯狂涌入。。 。。。

全球天下模子赛道主要手艺蹊径比照:BWM走的是"行动条件视频天生"蹊径

近两年,,天下模子这条赛道有一种显着的“军备竞赛”倾向:模子参数越来越大,,训练数据越堆越多,,算力卡集群越拉越长。。 。。。在这种气氛下,,BWM团队选择了一条不那么“卷”的蹊径——不靠堆数据和拼算力,,而是靠架构立异和数据效率取胜。。 。。。

详细而言,,这条差别化手艺蹊径包括三个层面的立异:

BWM差别化手艺蹊径的三个层面

这里需要睁开诠释一下DiT架构的价值。。 。。。与古板扩散模子差别,,DiT用Transformer替换了原来的卷积主干网络。。 。。。在处理长视频序列时,,注重力机制能够捕获更远距离的时空依赖关系——简朴说,,就是让模子在推演第100帧时,,还记得第1帧里杯子放在那里。。 。。。而“动态影象机制”的引入,,则进一步缓解了长时序推演中的“灾难性遗忘”问题。。 。。。

首帧指导机制使用初始帧信息锚定场景,,提升视频天生的时空连贯性;;双通路行动控制调制则将机械人行动轨迹精准映射到视频天生中,,实现行动可控的物理仿真。。 。。。三项立异从场景初始化、长时序影象建模到行动响应控制多维度协同,,使BWM在时空连贯性、行动可控性与物理一致性上周全领先。。 。。。

BWM手艺架构示意:从首帧指导到行动调制,,再到动态影象的完整流程

BWM以小参数目跑赢大模子,,这在天下模子领域并未几见。。 。。。它不但是一项手艺效果,,更在提醒一个偏向:算力规模并非唯一的入场券,,架构原创才是真正的壁垒。。 。。。

六大场景,,磨练“物理直觉”

天下模子好欠好,,最终要看它能不可在真实的机械人使命中“靠谱地预判”。。 。。。BWM在评测中笼罩了六大类典范具身使命场景,,每一类都在磨练模子对差别物理交互的建模能力:

空间重排——按巨细排列积木、堆叠碗碟。。 。。。挑战在于多物体的空间排序与堆叠稳固性。。 。。。BWM能够坚持物体身份与目的结构,,维持稳固堆叠接触,,并展望自顺应夹爪控制。。 。。。

铰链交互——翻开微波炉、掀开条记本电脑。。 。。。挑战在于铰链约束下的开合动力学,,以及旋转历程中物体几何形态的连贯性。。 。。。BWM在长时序推演中坚持了物体状态的长期性。。 。。。

细腻操作——拧开关、挂杯子、按铃铛、盖章章。。 。。。挑战在于极小的接触区域和准确的状态转变交互,,要求模子明确物体的可供性——也就是"这个工具能怎么用"。。 。。。

双臂协同——双手转达积块、交接麦克风。。 。。。挑战在于双臂同步运动与近距离交接中的碰撞阻止。。 。。。BWM建模了同步双臂运动,,坚持了物体一连性。。 。。。

长程放置——将物体放入柜子、瓶子扔进垃圾桶。。 。。。挑战在于长时序场景一致性与遮挡下的物体漂移问题——BWM在遮挡场景下物体不会"凭空消逝"。。 。。。

漫衍外泛化——团队用GPT-Image-2天生了从未见过的初始场景,,叠加原始机械人行动序列让BWM推演未来效果。。 。。。面临物体外观的强烈转变,,BWM仍然坚持了行动驱动的动力学一致性和交互连贯性。。 。。。这意味着模子并不是靠"背题"拿到高分,,而是真正学到了某种水平的物理纪律——即便面临训练历程中没见过的场景外观,,它依然能沿着给定的行动序列,,合理地推演出接下来会爆发什么。。 。。。用更通俗的话说:模子拥有了一定水平的“物理直觉”。。 。。。

空间重排:积木按巨细排序

铰链交互:翻开微波炉

细腻操作:悬挂杯子

双臂协同:转达积块

长程放置:物体放入柜子

漫衍外泛化:未见场景推理

BWM在WorldArena评测中的六大场景天生效果(泉源:GitHub开源项目)

这些场景的难度在于,,它们不是简朴的视频天生,,而是基于给定行动序列的物理仿真。。 。。。模子需要明确“力”与“运动”的关系,,需要预判行动的效果,,需要对三维空间有准确感知。。 。。。这正是天下模子区别于通俗视频天生模子的焦点能力。。 。。。

WorldArena六大评测维度体现比照:BWM在物理遵照性和可控性上体现突出

开源与闭源并举,,天下模子需要生态

当宿天下模子行业保存一个显着的痛点:学术效果难验证,,顶尖手艺难复现。。 。。。许多团队在论文里报告的效果令人印象深刻,,但外界既无法复现,,也难以判断真实能力界线在那里。。 。。。

BWM团队接纳的战略是开源与闭源并行——开源版本BLM释放可复现的手艺底座,,降低科研与开发门槛;;闭源版本BWM-Fast则一连探索模子性能上限,,验证手艺蹊径的竞争力。。 。。。

阻止发稿,,BLM的模子权重、推理代码已在GitHub和Hugging Face同步开放,,训练代码也在逐步释出中。。 。。。GitHub客栈已收获凌驾1600颗Star。。 。。。当足够多的研究者和开发者基于统一套开源底座做实验、提issue、孝顺代码,,天下模子的迭代速率将会显著加速。。 。。。

从更大的行业视角来看,,天下模子赛道正在从“要不要做”进入“怎么做”的深水区。。 。。。LeCun的JEPA蹊径、李飞飞的3D天生蹊径、华为系团队的类脑认知蹊径、以及BWM所代表的行动条件视频天生蹊径——差别的手艺路径正在交汇和分化。。 。。。

英伟达机械人偏向认真人Jim Fan在红杉AI Ascent 2026大会上抛出了一个极具争议的论断:“VLA已死,,WAM当立”。。 。。。随后,,复旦大学团队联合新加坡国立大学揭晓综述《World Action Models: The Next Frontier in Embodied AI》,,与Jim Fan的论断遥相呼应。。 。。。

无论这场蹊径之争最终走向何方,,BWM的效果已经证实晰一件事:在天下模子的竞争名堂中,,中国团队不但在。。 。。。,并且有实力站在最前面。。 。。。同济大学空间智能团队体现,,这套手艺蹊径与全栈能力系统已形成,,未来将在空间智能与天下模子焦点问题上一连深度探索。。 。。。而关于整个行业来说,,一个开源、高水平、一连迭代的天下模子底座,,或许正是目今最缺的那块拼图。。 。。。

天下模子的竞争,,才刚刚最先。。 。。。(本文首发钛媒体APP,,作者 | AGI-Signal,,编辑 | 焦燕)

 

文章点评

未盘问到任何数据!

揭晓谈论

◎接待加入讨论,,请在这里揭晓您的看法、交流您的看法。。 。。。

最新文章

热门文章

随机推荐

【网站地图】