当宇树用侧空翻和功夫向全球证实晰其顶尖的小脑能力,,,,,当银河通用、星海图、千寻智能等公司正在把“通用具身大脑”推成行业的主流叙事。。。。。一切看起来顺理成章——运动能力解决了,,,,,接下来就是大脑竞争的时代了。。。。。
但这里有一个被公众整体忽略的事实:宇树(们)搞定了,,,,,不代表行业解决了。。。。。运动控制从未成为一个被普遍解决的问题,,,,,它只是少少数公司的私有能力。。。。。
现真相形是:头部具身大脑公司历来不把运动控制看成他们自己的主场,,,,,它们的战略是绕开宇树最强的壁垒,,,,,先做轮式或牢靠底盘机械人。。。。。中小人形本体公司在运动控制上的追赶则更为艰难。。。。。而想做“机械人界的苹果”的宇树,,,,,或许率永远不会做跨型号适配的通用运动控制平台。。。。。
以是,,,,,无论是头部具身大脑公司,,,,,照旧中小本体公司,,,,,运动控制是它们早晚必需要补的一课。。。。。
整个具身行业在数据收罗的名堂上,,,,,也泛起出泾渭明确的差别。。。。。由于“大脑”公司麋集扎堆,,,,,第三方数据工厂为了追求规模效应,,,,,将绝大大都产能倾斜在操作数据领域(Manipulation)。。。。。相比之下,,,,,愿意深入底层“小脑”的厂商寥寥无几,,,,,导致运动数据(Locomotion)在商业上因需求规模缺乏,,,,,缺乏第三方服务商愿意为其服务。。。。。这迫使聚焦运动控制的厂商只能在市面上采买零星数据,,,,,更多的是依赖自有团队举行自采。。。。。这种供应侧的畸形,,,,,使得运动控制领域的数据越发稀缺,,,,,并且高质量、高泛化的数据就更为匮乏。。。。。
“近两年,,,,,头部具身智能本体厂商与上游企业已陆续把“数据”列入战略议程,,,,,只是这股趋势在差别偏向上的落点并不平衡——运动控制相关的数据建设至今仍是一片显着的洼地,,,,,甚至可以说是“真逍遥带””桥介数物的首创人尚阳星对创投家体现,,,,,“行业内现有的运动控制数据普遍保存供应缺乏、质量狼籍不齐、构型与场景局限性大等问题,,,,,远远跟不上模子逊需的规模。。。。。”
克日,,,,,专注于通用机械人运动控制基础设施的研发商——桥介数物,,,,,宣布其自建的“跨本体全身运动数据工厂”正式投入使用。。。。。而这个数据工厂正是为相识决行业“高质量的跨本体全身运动数据”的缺位而建。。。。。
尚阳星出生于1999年,,,,,华科本科,,,,,南科大保研,,,,,师从逐际动力首创人张巍教授。。。。。桥介数物是他的第一个创业项目,,,,,团队从宿舍起步,,,,,2023年底拿到奇绩创坛的种子轮投资后,,,,,从2024年底到2025年8月的半年内,,,,,一连完整天使轮、天使+轮及Pre-A轮,,,,,累计金额近亿元——正轩投资、复星创富、潜能集团、隐山资源、明荟致远、沂景资源等机构相继入场。。。。。
在具身智能这个普遍亏损的赛道里,,,,,桥介数物建设第一年就接到了客户项目,,,,,实现了盈利。。。。。2024年8月的天下机械人大会上,,,,,27家人形机械人厂商参展,,,,,桥介数物服务了其中凌驾半数。。。。。关于一台未经调试的人形机械人,,,,,它最快一周能完成模子训练,,,,,让它走起路来。。。。。一个定制化项目通常需要1到3个月。。。。。
克日,,,,,我们借着桥介数物“跨本体全身运动数据工厂”正式启用的契机,,,,,与这位99年的年轻首创人,,,,,就运动数据的质量、泛化、训练等问题,,,,,睁开了一次深度的对话。。。。。
▎以下为与尚阳星的对话全文,,,,,略有删减:
创投家:您先帮我们界说一下什么叫“高质量的跨本体全身运动数据”??????高质量高在哪??????
尚阳星:要回覆这个问题,,,,,先要回覆“我们想要什么运动能力”。。。。。
对通用全身运动模子来说,,,,,我们要的是一种能够向上兼容多模态行动意图、向下兼容差别本体硬件、清静可靠、并且可以在重大情形中一连进化的运动能力。。。。。
而这种能力对数据提出了更高的要求:不是伶仃的运动轨迹,,,,,而是能同时保存全身协同、使命意图、接触关系、情形上下文、物理可行性和跨本体复用价值的数据。。。。。
创投家:现有的运动数据形态保存哪些问题??????
尚阳星:现有的数据形态,,,,,单独看都很难自然知足这些要求:
动捕数据可以准确、结构化地纪录人体运动状态,,,,,但缺失情形信息以及人和情形之间的准确交互;;;;;遥操作数据严酷绑定特定机械人本体,,,,,硬件一换,,,,,复用价值就会显著下降;;;;;第一人称视频集中在最后和物体交互,,,,,不可完整表达躯干、下肢、重心和接触之间的全身协调关系;;;;;第三人称视频虽然能看到整体行动,,,,,但难以从中提取出准确合理的人体行动。。。。。
这些数据各自都有价值,,,,,但单独都缺乏以支持通用全身运动模子需要的数据闭环。。。。。
创投家:以是通过咱们数据工厂产出的数据是一种怎样的形态??????
尚阳星:我们把真正面向通用全身运动模子训练的数据资产,,,,,界说为跨本体全身运动数据(Cross-Embodiment Whole-Body Motion Data,,,,,CWM),,,,,要求 CWM 至少同时知足以下四个性子:
跨本体可重定向性(Cross-embodiment retargetability)。。。。。统一段行动必需能够通过统一的处理管线,,,,,在差别显著的多种本体上,,,,,产出物理自洽的训练样本。。。。。
全身笼罩性(Whole-body coverage)。。。。。数据必需完整表达躯干、四肢、手部、手指以及它们之间的协同关系,,,,,而不可只保存上半身最后轨;;;;;蛳掳肷聿教。。。。
物理可行性(Physical feasibility)。。。。。一条及格的数据,,,,,不但是运动学平滑合理,,,,,还需在目的本体上的动力学具备物理可行性,,,,,不可泛起浮空、穿透、滑移、失稳、力矩超限等问题。。。。。
多模态性(Multi-source augmentability)。。。。。及格的数据还需要同步收罗人体行动、语义标签、第一人称视频、第三人称视频、情形资产和物体资产。。。。。
知足这四个性子的 CWM 数据,,,,,不是简朴收罗就能获得,,,,,它需要许多的后处理才华被生产出来,,,,,这也是我们建设跨本体全身运动数据工厂的出发点。。。。。
创投家:为什么说CWM数据“不是靠收罗就能获得”??????
尚阳星:关于全身运动控制来说,,,,,数据要笼罩的不但是几个标准行动,,,,,而是行走、转身、下蹲、搬运、抓取、支持、避障、恢复平衡、接触切换等大宗一连行动组合。。。。。
我们内部的判断,,,,,要训练出一个真正通用的全身运动模子,,,,,最终需要数十万甚至上百万小时级别的高质量CWM数据。。。。。在这个量级眼前,,,,,少量数据在恒久来看很难支持起通用化,,,,,真正有价值的是能够一直扩张的数据规模。。。。。
全身运动数据的重大性在于,,,,,它不是“收罗的行动越多越好”,,,,,而是必需有准确的数据配方和严酷的数据质量控制。。。。。同时,,,,,每条数据还必需经由洗濯、标注、重定向和物理验证。。。。。否则,,,,,大规模数据很容易酿成大规模噪声。。。。。
因此,,,,,CWM数据生产必需被设计成一套工业化生产系统,,,,,而收罗只是其中一环。。。。。
创投家:这套工业化生产系统详细包括哪些环节??????
尚阳星:一段行动从被设计出来,,,,,到能进入训练集,,,,,还必需经由质检、跨本体重定向、动力学与仿真增强、语义标注,,,,,以及来自模子训练侧的反馈闭环。。。。。
这其中,,,,,专业行动设计职员认真界说行动谱系,,,,,收罗团队认真高质量同步录制,,,,,工程团队认真洗濯、名堂化、重定向和仿真回放,,,,,算法团队认真物理验证、训练反馈和数据筛选,,,,,质检团队认真把不可用样本挡在训练集之外。。。。。
这也是 CWM 数据工厂的焦点价值:用稳固的园地、装备、流水线、专业团队和质检系统,,,,,把通用全身运动数据酿成一种可一连生产能力。。。。。
创投家:数据工厂在设计行动这个环节上是怎样操作的??????
尚阳星:通用全身运动模子需要一套一连扩展、能笼罩身体协同方式的运动空间。。。。。这套空间不可只是行动目录的堆叠,,,,,而要沿几条相互自力的主线填充。。。。。
首先就是按身体使用方式组织,,,,,而不是按行动名称充数。。。。。移动、姿态转换、肢体协同、接触切换和物体操作,,,,,这些基础维度是后续重大能力的底盘。。。。。
其次我们会兼顾重大地形、多人交互与情形交互。。。。。重大地形改变支持战略,,,,,多人交互引入空间协商,,,,,情形交互让身体运动与物体、接触面和可达空间深度耦合。。。。。它们不可靠平地单人行动外推,,,,,必需显式安排进收罗妄想。。。。。
第三,,,,,我们也会保存下意识行为与自由施展。。。。。剧本只界说使命界线,,,,,真实运动里尚有大宗没被写下来的部分:个体行动习惯、临场调解和应对意外的本能反映。。。。。专业行动设计职员会在录制中给出意图与约束,,,,,同时保存演出者按自身习惯完成行动的空间。。。。。
第四就是行动恢复与失败兜底。。。。。模子能不可被安排,,,,,很洪流平上取决于失败时能不可稳住。。。。。失衡后的再平衡、碰撞后的避障回缩、非理想姿态下的起身恢复,,,,,这类样本通常稀缺,,,,,但直接关系到模子的清静界线。。。。。
创投家:CWM数据在收罗历程中需要同步收罗多形态的数据,,,,,这个收罗历程是怎样实现的??????
尚阳星:对,,,,,CWM 的同步收罗不是纯粹录一段人体行动,,,,,而是要在统一段行动中同步回覆四件事:运动意图、身体运动方式、交互目的与情形。。。。。这自然要求人体行动、视频、语义、场景被同步纪录。。。。。
按目今的收罗规范,,,,,一条完整纪录会只管同步收罗以下四类数据:
人体行动(BVH),,,,,承载行动语义、身体协同、重心转变和姿态转换;;;;;
原始视频,,,,,作为高价值的辅助信号,,,,,支持视频行动补全与人体行动提取,,,,,包括第一人称和第三人称视角;;;;;
场景交互资产,,,,,提供行动爆发的情形与物体上下文,,,,,是把行动放进仿真情形的前置条件。。。。。主要收罗两类:地形与场景资产、可交互物体资产。。。。。
语义标签,,,,,由专业行动设计职员、现场纪录员和 AI 标注系统协同天生,,,,,界说行动界线、行动种别、场景和意图。。。。。
之以是必需同步收罗,,,,,是由于全身运动的价值不在某一个单独模态,,,,,而在差别模态之间的对应关系。。。。。若是这些信号没有对齐,,,,,我们就无法判断手部轨迹对应的是哪一帧物体接触,,,,,也无法判断脚底受力是否对应目今姿态,,,,,更无法验证这段行动是否真的可以进入训练集。。。。。为此,,,,,数据工厂为所有收罗装备建设了统一的收罗时钟和时间戳系统,,,,,来包管其对应关系。。。。。
创投家:关于跨本体重定向这个环节,,,,,现在行业里通用的解决方案是什么??????咱们又是怎样解决的??????
尚阳星:重定向(motion retargeting)是把一段以人体或某一参考本体为坐标系的行动,,,,,转化为目的机械人本体上的轨迹。。。。。业内普遍的操作方式是以人工为主的调参历程,,,,,每个型号的机械人都需要单独调试,,,,,只思量重定向这个环节,,,,,履历富厚的人或许也需要破费几个小时/台。。。。。
而现在行业通例做法最大的问题在于:只思量了运动学,,,,,而没有思量动力学。。。。。这就导致重定向只是模拟了行动运行的轨迹,,,,,而没有综合思量本体的质量,,,,,轴距,,,,,摩擦力等因素,,,,,其效果就是跨本体泛化水平不达预期。。。。。
我们在算法层自研了重定向引擎,,,,,支持“恣意行动×恣意机型×恣意地形”。。。。。输入同步收罗的多维度数据,,,,,就可以输出适配种种本体,,,,,并且综合思量了地形、接触与枢纽因素的有用效果。。。。。工程层上,,,,,统一本体笼统层让新机械人仅靠URDF即可自动适配。。。。。并且,,,,,工厂接纳了流式与离线双模式,,,,,支持边采边重定向,,,,,将逐条人工调试的事情压缩至靠近实时完成。。。。。
创投家:重定向之后的数据就可以直接用于模子训练了吗??????
尚阳星:尚有一个环节叫数据增强。。。。。
跨本体重定向输出的是高质量候选轨迹,,,,,但候选轨;;;;;共皇亲钪昭盗纷什。。。。数据增强要做的是继续把这些候选轨迹酿成更可验证、更可训练、更容易被模子消耗的数据。。。。。
我们沿三条路径优化这些轨迹:动力学增强、仿真多样性增强、语义标注。。。。。
动力学增强:把优质样本放进目的本体的动力学与接触模子里,,,,,通过RL动力学后处理同时控制跟踪误差和物理违反,,,,,让候选轨迹从“运动学上像”升级为“在目的本体上能跟踪、不穿透、不超扭矩、不违反摩擦锥”。。。。。
仿真多样性增强:把统一段行动放进差别的虚拟情形里重复执行,,,,,让CWM资产的笼罩密度成倍放大。。。。。补齐缺失模态,,,,,同时扩增视觉与场景多样性。。。。。
语义标注:AI标注系统辅助天生行动切片、行动种别、接触状态、场景工具、使命语义、失败原因和能力维度等标签,,,,,由专业行动设计职员认真复核。。。。。
创投家:工厂最后怎样验证数据资产的有用性??????
尚阳星:CWM数据工厂的质量治理则要走两步:先沿生产链路做分层把关,,,,,再用模子训练的效果做闭环反馈。。。。。
一条样本从行动需求走到训练集,,,,,要顺序通过四道自力的质检,,,,,也就是之前的设计层、原始数据层、重定向层和增强数据层。。。。。四层把关配合把一条候选样本筛成可入训练集的资产,,,,,但真正能不可训练出通用全身运动能力,,,,,最终只能由模子告诉我们。。。。。
训练侧会把每一次模子评估效果,,,,,汇总成一份可回写的失败画像。。。。。失败画像会被直接写回到上游每一层,,,,,每一层再凭证这份失败画像调解每一步的执行战略。。。。。
两步合在一起,,,,,数据工厂就形成了一连迭代闭环,,,,,将数据置于“设计—收罗—处理—训练—反馈”的闭环链路中,,,,,从而提升单条数据的有用使用率,,,,,让数据价值获得最大化释放。。。。。
创投家:现在数据工厂的本钱结构是怎样的??????运营状态怎样??????产出怎么样??????
尚阳星:现在工厂或许有几十名员工,,,,,园地规模或许是1000平米左右。。。。。算上装备的采购以及运营本钱,,,,,整体投入在万万级别。。。。。收罗本钱或许是数百元/小时。。。。。
已往三个月,,,,,我们在内部试点中跑通了跨本体全身运动数据工厂的端到端链路。。。。。沿着这条链路,,,,,我们累计产出了近千小时的高质量CWM数据。。。。。用这批数据训出的全身运动模子,,,,,最终在十多款结构、驱动性能、质量漫衍和惯量漫衍差别显著的足式机械人上完成了要害验证。。。。。
下一阶段的重点,,,,,是从试点验证转向规;;;;;。。。。我们会把园地、收罗棚、动捕装备、行动设计团队、演出者体例和算法/仿真/逊с力集群同时扩容,,,,,让前面跑通的产线在更大规模上稳固运转。。。。。凯时AG目的是在新工厂落地后,,,,,早期阶段要形成每月数千小时级、面向多构型机械人的高质量CWM数据产出能力。。。。。
创投家:数据工厂关于行业的价值是什么呢??????
尚阳星:我们作为自力第三方的运动模子提供商,,,,,以及未来的通用操作系统提供商,,,,,凯时AG目的是面向全行业、适配所有机械人。。。。。若是没有我们这样的第三方角色保存,,,,,每家公司想要抵达一流的运动控制效果,,,,,可能就必需自己来建数据工厂,,,,,或者把这类数据集都买一遍。。。。。这个本钱当下就得几万万,,,,,可能过一段时间会更多。。。。。
另外,,,,,现在行业里有几百家人形机械人公司,,,,,我们展望纵然未来最终收敛,,,,,至少也会保存几十家,,,,,可以对标汽车厂商的数目。。。。。若是每家公司都重新来一遍,,,,,这是重大的资源铺张。。。。。
这是云南省话剧院民族史诗话剧《澜沧水长》的尾声。。。。。该剧克日入选第七届天下少数民族文艺会演剧目。。。。。该剧由云南艺术学院副院长、国家一级编剧杨军编剧,,,,,中国国家话剧院原常务副院长、国家一级导演王晓鹰担当导演,,,,,题材取自“新中国民族团结第一碑”——普洱民族团结誓词碑的立碑往事。。。。。自2022年9月昆明首演以来,,,,,已在北京、上海、武汉、新疆等地巡演80余场,,,,,观众逾8万人次。。。。。