6月12日新闻,,,,,跨维智能克日正式对外先容了其面向具身智能领域研发的数据处理框架Dexterity-BEV。。。。。。据悉,,,,,该手艺旨在解决目今机械人领域因数据异构、坐标系不统一而难以规模;盗返慕沟隳烟,,,,,其焦点思绪是将源自自动驾驶领域的BEV(Bird's-Eye View,,,,,鸟瞰图)范式,,,,,系统性地引入具身智能的数据基建层。。。。。。
BEV手艺为机械人数据建设统一空间秩序
目今,,,,,具身智能行业正面临与早期自动驾驶类似的数据逆境。。。。。。;等耸萑醇卮,,,,,可能同时包括多视角图像、深度信息、枢纽状态、语言指令等多种异构信息,,,,,且差别机械人本体、差别数据集之间的坐标系、视角、操作习惯均不统一。。。。。。这种数据的“无序增添”导致了严重的“熵暴”(entropy explosion)问题,,,,,即数据量越大,,,,,其整合、训练和跨平台迁徙的难度反而越高,,,,,难以形成可规模;氖葑什。。。。。。
Dexterity-BEV的提出,,,,,正是为相识决这一根天性问题。。。。。。其焦点是构建一个统一的BEV三维空间坐标系。。。。。。该手艺将多泉源、多视角的机械人视觉输入,,,,,统一对齐到一个虚拟的俯视参考空间中。。。。。。这并非简朴的图像拼接或重大的三维重修,,,,,而是为所有数据提供了一个共通的“物理语言”参考系。。。。。。这意味着,,,,,无论相机装置位置、机械人视察角度怎样转变,,,,,统一物理使命最终都能被转化为这个统一空间中的可学习表达,,,,,使模子能从“看图猜行动”转向“在三维空间里明确使命”。。。。。。
兼顾2D模子能力与3D空间明确,,,,,实现感知-行动闭环
据先容,,,,,Dexterity-BEV接纳了一种兼顾效率与性能的路径。。。。。。它并未放弃现有成熟的2D视觉语言大模子(VLM),,,,,而是在其基础上,,,,,通过引入“极点图”和“极点谱”等机制,,,,,为视觉特征token注入三维空间位置信息。。。。。。这相当于在保存强盛语义明确能力的同时,,,,,为2D模子补上了机械人操作所必需的3D空间“骨架”,,,,,阻止了重造腾贵3D系统的高昂本钱。。。。。。
更为要害的是,,,,,Dexterity-BEV不但对齐了视觉输入,,,,,还将机械人的状态和目的行动也统一到了统一个BEV坐标系中。。。。。。该框架将机械人的行动从详细的枢纽角度中解放出来,,,,,让模子学习最后执行器在统一空间中的目的位姿和移动轨迹。。。。。。同时,,,,,通过跨轨迹时序对齐机制,,,,,镌汰了因操作者速率差别带来的无关噪声。。。。。。这形成了一个完整的“感知-行动”对齐闭环,,,,,输入(视觉)、状态(机械人)、输出(行动指令)首次在统一个物理坐标系统下被统一表达,,,,,为跨差别机械人平台的手艺迁徙涤讪了基础。。。。。。
实测展现强泛化能力,,,,,或陋习模;
在验证环节,,,,,Dexterity-BEV在仿真和真实机械人实验中,,,,,重点测试了在相机视角转变、机械人基座扰动、场景结构变换及跨平台迁徙等挑战性设置下的体现。。。。。。凭证其宣布的效果,,,,,在LIBERO、RoboTwin 2.0等仿真情形中,,,,,面临大幅扰动,,,,,古板2D VLA要领乐成率显着下降,,,,,而Dexterity-BEV坚持了相对稳固的性能。。。。。。
在真实机械人测试中,,,,,该手艺笼罩了折叠纸盒、折布、舀爆米花、递书等涉及刚体、柔性体、颗粒物及人机交互的重大长程操作使命。。。。。。这些使命更能磨练模子是基于“影象画面”照旧真正“明确物理”。。。。。。实验批注,,,,,在数据经由统一空间对齐后,,,,,模子的泛化能力获得了有用提升。。。。。。
跨维智能体现,,,,,Dexterity-BEV的焦点价值不但在于模子性能的提升,,,,,更在于它标记着具身智能可能从纯粹的“堆叠数据量”阶段,,,,,进入“建设数据秩序”的新阶段。。。。。。正如BEV范式曾资助自动驾驶行业实现从多相机图像感知到统一空间明确的要害跃迁,,,,,Dexterity-BEV旨在为具身智能构建一套可规模;盗贰⒖煽缙教ㄇㄡ愕氖莼。。。。。。这或许是在追求更大模子、更大都据之前,,,,,行业必需补齐的要害一课。。。。。。(崔玉贤)
在农业领域,,,,,我国累计推广应用北斗终端装备超270万台(套)——