本周 AI 项目推荐:WorldModelBench,,,WorldScore,,,WorldLens…天下模子井喷,,,需要新的Benchmark
作者|樊雅婷微信| FFF111f__
2026 年上半年,,,“天下模子”已经从论文里的手艺词,,,酿成了 AI 公司、机械人公司、自动驾驶公司和 VC 讨论里绕不开的要害词。。。视频天生模子说自己能模拟物理天下,,,具身智能团队说自己要用天下模子训练机械人,,,自动驾驶公司说天生式仿真可以替换一部分真实路测。。。
但问题也随之变得尖锐:一个模子会天生漂亮视频,,,就即是它明确天下了吗?????它能不可遵守物理纪律?????能不可坚持 3D 几何一致?????能不可服务自动驾驶和机械人决议?????能不可从“看起来像真的”,,,走到“用起来真的有用”?????
以是,,,比起只看 demo,,,更应该看 benchmark。。。下面这五个天下模子benchmark包括通用视频天下模子、统一天下天生、自动驾驶、具身智能、物理推理。。。它们不是所有 benchmark 的全集,,,但基本笼罩了当下天下模子最要害的五条主线。。。
1. WorldModelBench
一句话先容: WorldModelBench 把视频天生模子看成天下模子来考,,,不但问画面好欠悦目,,,还问指令、知识和物理是否经得起检查。。。
WorldModelBench 解决的是通用视频模子评测里最焦点的缺口:已往许多 benchmark 偏向视觉质量、文本对齐某人类偏好,,,但“天下模子”真正要回覆的是,,,模子是否明确行动、场景因果和基础物理。。。它笼罩机械人、自动驾驶、工业、人类活动、游戏、动画、自然等 7 个应用域,,,细分到 56 个子域,,,使用 350 个图文提醒,,,并用指令追随、知识、物理遵守三大维度评测。。。物理部分重点看牛顿第一定律、形变、流体、穿透、重力等常见“天下建;;;;;镁酢。。。论文还众包了 6.7 万个人类标注,,,并训练了一个 human-aligned judge 来自动评测。。。在效果上,,,Kling 等闭源模子整体靠前,,,Mochi、OpenSoraPlan 等开源模子在部分维度靠近闭源模子,,,但论文的焦点结论不是“谁已经解决了天下模子”,,,而是头部模子仍然离可靠天下模拟器很远。。。
宣布团队来自 UC Berkeley、UC San Diego、NVIDIA 和 MIT ,,,Ion Stoica 是 UC Berkeley 盘算机教授,,,也是 Databricks、Anyscale 等公司的配合首创人;;;;;Joseph E. Gonzalez 是 Berkeley EECS 教授、Sky Computing Lab / RISE Lab 配合认真人,,,并属于 BAIR 生态。。。这使 WorldModelBench 不但是一个视频评分集,,,而是系统、视觉、机械人和高效 AI 团队配合推动的天下模子评测。。。
为什么值得关注
它是最适相助为“通用视频天下模子入门基准”的 benchmark。。。由于它没有只停留在审美和清晰度,,,而是把天下模子拆成应用域、物理纪律和细粒度过失类型,,,特殊适合判断一个视频模子究竟是在“天生像天下的图像”,,,照旧在“模拟一个能自洽演化的天下”。。。
项目:https://worldmodelbench-team.github.io/
论文:https://arxiv.org/abs/2502.20694
代码与评测:https://github.com/WorldModelBench-Team/WorldModelBench
测试数据:https://huggingface.co/WorldModelBench-Team
2. WorldScore
一句话先容: WorldScore 把 3D、4D、图生视频、文生视频模子放到统一个“下一场景天生”框架里评测,,,重点看模子能不可按相机轨迹一连天生天下。。。
概述: WorldScore 解决的是“差别天下天生蹊径无法公正较量”的问题。。。3D 模子、4D 模子和视频模子输出形态差别,,,已往很难在统一张内外较量。。。WorldScore 将天下天生拆成一系列基于明确相机轨迹的 next-scene generation 使命,,,用 3000 个样例笼罩静态/动态、室内/室外、写实/气概化等场景,,,并从可控性、质量、动态三方面打分。。。????煽匦钥聪嗷刂啤⑽锾蹇刂坪湍谌荻云耄,,质量看 3D 一致性、光度一致性、气概一致性和主观质量,,,动态看运动准确性、幅度和流通度。。。官方效果显示,,,Voyager、WonderWorld、LucidDreamer 等 3D/场景天生模子在静态天下天生上很强,,,CogVideoX-I2V 等视频模子在动态分数上体现突出;;;;;同时,,,T2V 模子通常更容易被文本控制,,,I2V 模子往往画质更稳。。。
WorldScore 是 Stanford University 团队宣布,,,论文作者为 Haoyi Duan、Hong-Xing Yu、Sirui Chen、Li Fei-Fei、Jiajun Wu。。。Li Fei-Fei 是 Stanford 盘算机系 Sequoia Professor、Stanford HAI 首创联合主任,,,曾任 Stanford AI Lab 主任和 Google Cloud AI/ML 首席科学家,,,开办World Labs,,,也是 ImageNet 的要害推动者;;;;;Jiajun Wu 是 Stanford 盘算机系助理教授,,,同时兼任心理学偏向,,,研究盘算机视觉、机械人和盘算认知科学,,,所在偏向自然贴近“天下怎样被体现、推理和天生”。。。因此,,,WorldScore 更像是 Stanford 视觉学习、3D/物理场景明确和天生模子研究脉络下的一套天下天生怀抱。。。
为什么值得关注:
若是说 WorldModelBench 更像“视频模子是不是天下模子”的体检,,,WorldScore 则更像“天下天生蹊径大横评”。。。它把 3D、4D、视频三条手艺蹊径放进统一协议,,,对创业公司和研究团队判断手艺蹊径很有价值:究竟该押视频天生、3D 天生,,,照旧更混淆的 4D 天下天生。。。
项目页:https://haoyi-duan.github.io/WorldScore/
论文:https://arxiv.org/abs/2504.00983
代码:https://github.com/haoyi-duan/WorldScore
数据集:https://huggingface.co/datasets/haoyi-duan/WorldScore
3. WorldLens
一句话先容: WorldLens 专门评估自动驾驶天下模子,,,焦点问题是:天生的驾驶天下不但要像,,,还要几何稳固、物理合理、行为清静、对下游使命有用。。。
WorldLens 解决的是自动驾驶场景里“视觉逼真但功效失真”的问题。。。驾驶天下模子很容易天生看起来合理的 4D 场景,,,但一旦切到重修、闭环控制、下游检测支解,,,就会袒露几何漂移、运动不稳固、碰撞、偏离蹊径等问题。。。WorldLens 用五个互补偏向评测:Generation、Reconstruction、Action-Following、Downstream Task、Human Preference,,,并进一步构建 WorldLens-26K 人类偏好数据和 WorldLens-Agent 视觉语言评审器。。。项目结论很是现实:没有简单模子能在所有维度统治榜单,,,纹理真实的模子可能物理和几何不稳,,,几何稳固的模子又可能行为细节缺乏。。。论文实验中,,,DiST-4D 在新视角质量和部分下游使命上体现强,,,OpenDWM 等模子在几何稳固性上有优势,,,DriveDreamer-2 也在使命相关指标中进入强势梯队。。。
WorldLens 由 WorldBench Team 宣布,,,NUS、University of Macau、USTC、Zhejiang University、NTU、Horizon Robotics、HUST、TUM、Fudan University、Shanghai AI Lab、A*STAR、CNRS 等。。。焦点作者包括 Ao Liang、Lingdong Kong、Tianyi Yan、Hongsi Liu、Ziqi Huang等。。。Lingdong Kong 是 NUS 盘算机系博士生、项目牵头人,,,恒久维护自动驾驶和 3D/4D 天下建模相关项目;;;;;Ziwei Liu 是 NTU MMLab 的 Associate Professor / Provost's Chair in AI,,,研究笼罩盘算机视觉、机械学习和盘算机图形;;;;;Liang Pan 是 Shanghai AI Lab 研究科学家,,,恒久做 3D 视觉、world models 和 embodied AI;;;;;Wei Tsang Ooi 是 NUS 多媒系一切偏向教授。。。这个组合让 WorldLens 同时站在自动驾驶、4D 场景、3D 视觉和人类偏好评测的交织点上。。。
为什么值得关注
自动驾驶是天下模子最容易落地、也最不可只看 demo 的领域。。。WorldLens 的价值在于把“天生天下”拉回到了清静、闭环和下游使命上:一个模子天生的视频再漂亮,,,若是会让感知模子退化,,,或者让 planner 在模拟天下里撞车,,,它就不可算可靠的驾驶天下模子。。。
项目页:https://worldbench.github.io/worldlens
论文:https://arxiv.org/abs/2512.10958
代码:https://github.com/worldbench/WorldLens
Leaderboard:https://huggingface.co/spaces/worldbench/worldlens
4. WorldArena 2.0
一句话先容: WorldArena 评估具身天下模子是否真的能服务机械人使命,,,而不但仅是天生一段看起来不错的操作视频。。。
WorldArena 解决的是具身智能里“感知质量和功效价值脱节”的问题。。。许多 embodied world model 可以天生高质量视频,,,但机械人真正体贴的是:它能不可合成有用训练数据?????能不可作为 policy evaluator 评预战略?????能不可资助 agent 做 action planning?????WorldArena 先用 16 个指标评测视频感知质量,,,笼罩视觉质量、运动质量、内容一致性、物理遵守、3D 准确性、可控性 6 个子维度,,,再评估三类具身功效:Data Engine、Policy Evaluator、Action Planner,,,并提出 EWMScore 做统一怀抱。。。
WorldArena 2.0 在这个基础上继续扩展:第一,,,模态从 vision-only 扩展到 visuo-tactile,,,让模子必需处理接触、力、滑动和质料交互;;;;;第二,,,功效从离线评估扩展到 online RL,,,把天下模子看成可交互情形来训练和刷新战略;;;;;第三,,,平台从 simulator-only 扩展到 RoboTwin 2.0、LIBERO 和 AgileX split-type ALOHA 真实机械人。。。它的结论也更贴近工业问题:模拟情形里的好效果不即是真实安排能力,,,sim-to-real gap 仍然是具身天下模子必需跨过的硬门槛。。。
多机构联合联合宣布:Tsinghua University、Shanghai Jiao Tong University、The University of Hong Kong、Princeton University、Chinese Academy of Sciences、University of Science and Technology of China、Peking University、National University of Singapore。。。作者包括 Yu Shang、Zhuohang Li、Yiding Ma、Weikang Su、Xin Jin等。。。Yong Li 是清华 FIB Lab 主要认真人,,,恒久做 AI、数据挖掘和都会智能;;;;;Jun Zhu 是清华 Bosch AI Professor、IEEE/AAAI Fellow,,,研究机械学习、深度天生模子、强化学习和反抗鲁棒性;;;;;Wenwu Zhu 是清华盘算机系教授,,,曾在 Microsoft Research Asia、Intel Research China 等工业研究机构担当主要角色;;;;;Tat-Seng Chua 是 NUS School of Computing 的 KITHCT Chair Professor,,,也曾任 NUS Computing 创院院长。。。这个阵容让 WorldArena 更像具身天下模子领域的“学术-机械人-多媒体-系统”联合评测。。。
为什么值得关注
它把天下模子从“会不会天生未来帧”推进到“能不可让机械人变强”。。。这对具身智能很是要害,,,由于真正的机械人天下模子不但是模拟画面,,,而是要成为数据引擎、情形署理和妄想模????。。。WorldArena 是现在少数把 perception 和 functional utility 放在统一个框架里严肃评估的 benchmark。。。
项目页:https://world-arena.ai/
论文:https://arxiv.org/abs/2602.08971
代码:https://github.com/tsinghua-fib-lab/WorldArena
Leaderboard:https://huggingface.co/spaces/WorldArena/WorldArena
5. Physics-IQ / Physics-IQ Verified
一句话先容: Physics-IQ 用真实物理实验视频考视频天生模子,,,直接追问一个基础问题:模子是在明确物理,,,照旧只是在展望像素?????
Physics-IQ 解决的是“视觉真实不即是物理明确”的问题。。。它要求模子凭证真实天下物理视频的前半段展望后续演化,,,笼罩固体力学、流体动力学、光学、热力学、磁学五类物理征象。。。评测不看视频是否“看起来高级”,,,而是看模子展望的物理转变在空间、时间和运动区域上是否靠近真实效果。。。论文评估了 Sora、Runway、Pika、Lumiere、Stable Video Diffusion、VideoPoet 等模子,,,结论相当直接:目今视频天生模子的物理明确仍然有限,,,并且与视觉真实感并不强相关;;;;;多帧条件通常比单帧条件更有资助,,,流体征象相对更容易,,,固体力学更难。。。2026 年 6 月又泛起了 Physics-IQ Verified,,,对原始样本和 prompt 做了系统审计和修订;;;;;若是是现实跑评测,,,优先关注 Verified 版本会更稳。。。
Physics-IQ 由 Saman Motamed、Laura Culp、Kevin Swersky、Priyank Jaini、Robert Geirhos 宣布,,,论文首页标注 Saman Motamed 来自 INSAIT / Sofia University,,,相关事情在 Google DeepMind 时代完成,,,其余作者来自 Google DeepMind。。。INSAIT 官方报道也明确称该 benchmark 由 INSAIT 与 Google DeepMind 联合开发,,,并在 ICCV 2025 引发关注。。。Saman Motamed 是 INSAIT 的 ELLIS PhD student,,,研究盘算机视觉、天生模子和 intuitive physics;;;;;Robert Geirhos 是 Google DeepMind Staff Research Scientist,,,恒久做视觉鲁棒性、可诠释性和人机视觉较量,,,代表事情包括深度网络 texture bias / shortcut learning 偏向;;;;;Priyank Jaini 和 Kevin Swersky 也都来自 Google DeepMind 的天生模子与机械学习研究线。。。这个团队的优势是把真实物理实验、视觉心理学式问题意识和前沿视频模子研究放到了一起。。。
为什么值得关注
物理是天下模子叙事里最难绕开的底层能力。。。一个模子可以天生影戏感水花、爆炸和碰撞,,,但若是它无法展望真实物体会怎样继续运动,,,它就很难成为可靠的天下模子。。。Physics-IQ 的价值在于它足够直接:少讲“像不像”,,,多问“对差池”。。。
项目页:https://physics-iq.github.io/
论文:https://arxiv.org/abs/2501.09038
代码:https://github.com/google-deepmind/physics-iq-benchmark
Physics-IQ Verified:https://arxiv.org/abs/2606.18943
天下模子现在处在一个看法快速升温、手艺蹊径分叉、评测系统追着工业叙事补课的杂乱期。。。也正由于杂乱,,,benchmark 才值得看:它们是这场界说争取里,,,少数能把口号落到测试题上的工具。。。
Benchmark 可以给一个还很松散的看法画界线。。。WorldModelBench 考察视频模子有没有知识和物理约束;;;;;WorldScore 权衡差别天下天生蹊径能不可统一较量;;;;;WorldLens 可以用来评估驾驶天下是否真的对清静和下游使命有用;;;;;WorldArena 看的是具身天下模子是否真的能服务机械人;;;;;Physics-IQ 则把界线压到最底层,,,问模子究竟是在明确物理,,,照旧只是在补像素。。。
天下模子生长到今天,,,评测的主要性正在日益凸显,,,语言模子已经更早证实晰这件事,,,借鉴语言模子的履历,,,早日确定焦点评测偏向,,,也将成为未来竞争的要害。。。
点个“爱心”,,,再走 吧
@潘家冰:黄金城国际真人娱乐,,,登贝莱上演天下杯第二快帽子戏法@傅士凯:甘肃一河滩有蛇群出没
@杨长璇:漆黑隧道突遇羊群 车主撞死32只
热门排行
- 1 澳门拉斯维加斯游戏真人
- 2 兔牙娱乐
- 3 bet356体育
- 4 云顶集团4008com
- 5 明博体育官网
- 6 世界杯买球首选
- 7 国奥体育
- 8 威利斯官方
- 9 巴黎人真钱达人