当宇树用侧空翻和功夫向全球证实晰其顶尖的小脑能力,,,当银河通用、星海图、千寻智能等公司正在把“通用具身大脑”推成行业的主流叙事。。。。。。一切看起来顺理成章——运动能力解决了,,,接下来就是大脑竞争的时代了。。。。。。
但这里有一个被公众整体忽略的事实:宇树(们)搞定了,,,不代表行业解决了。。。。。。运动控制从未成为一个被普遍解决的问题,,,它只是少少数公司的私有能力。。。。。。
现真相形是:头部具身大脑公司历来不把运动控制看成他们自己的主。。。。。。,,它们的战略是绕开宇树最强的壁垒,,,先做轮式或牢靠底盘机械人。。。。。。中小人形本体公司在运动控制上的追赶则更为艰难。。。。。。而想做“机械人界的苹果”的宇树,,,或许率永远不会做跨型号适配的通用运动控制平台。。。。。。
以是,,,无论是头部具身大脑公司,,,照旧中小本体公司,,,运动控制是它们早晚必需要补的一课。。。。。。
整个具身行业在数据收罗的名堂上,,,也泛起出泾渭明确的差别。。。。。。由于“大脑”公司麋集扎堆,,,第三方数据工厂为了追求规模效应,,,将绝大大都产能倾斜在操作数据领域(Manipulation)。。。。。。相比之下,,,愿意深入底层“小脑”的厂商寥寥无几,,,导致运动数据(Locomotion)在商业上因需求规模缺乏,,,缺乏第三方服务商愿意为其服务。。。。。。这迫使聚焦运动控制的厂商只能在市面上采买零星数据,,,更多的是依赖自有团队举行自采。。。。。。这种供应侧的畸形,,,使得运动控制领域的数据越发稀缺,,,并且高质量、高泛化的数据就更为匮乏。。。。。。
“近两年,,,头部具身智能本体厂商与上游企业已陆续把“数据”列入战略议程,,,只是这股趋势在差别偏向上的落点并不平衡——运动控制相关的数据建设至今仍是一片显着的洼地,,,甚至可以说是“真逍遥带””桥介数物的首创人尚阳星对创投家体现,,,“行业内现有的运动控制数据普遍保存供应缺乏、质量狼籍不齐、构型与场景局限性大等问题,,,远远跟不上模子逊需的规模。。。。。。”
克日,,,专注于通用机械人运动控制基础设施的研发商——桥介数物,,,宣布其自建的“跨本体全身运动数据工厂”正式投入使用。。。。。。而这个数据工厂正是为相识决行业“高质量的跨本体全身运动数据”的缺位而建。。。。。。
尚阳星出生于1999年,,,华科本科,,,南科大保研,,,师从逐际动力首创人张巍教授。。。。。。桥介数物是他的第一个创业项目,,,团队从宿舍起步,,,2023年底拿到奇绩创坛的种子轮投资后,,,从2024年底到2025年8月的半年内,,,一连完整天使轮、天使+轮及Pre-A轮,,,累计金额近亿元——正轩投资、复星创富、潜能集团、隐山资源、明荟致远、沂景资源等机构相继入场。。。。。。
在具身智能这个普遍亏损的赛道里,,,桥介数物建设第一年就接到了客户项目,,,实现了盈利。。。。。。2024年8月的天下机械人大会上,,,27家人形机械人厂商参展,,,桥介数物服务了其中凌驾半数。。。。。。关于一台未经调试的人形机械人,,,它最快一周能完成模子训练,,,让它走起路来。。。。。。一个定制化项目通常需要1到3个月。。。。。。
克日,,,我们借着桥介数物“跨本体全身运动数据工厂”正式启用的契机,,,与这位99年的年轻首创人,,,就运动数据的质量、泛化、训练等问题,,,睁开了一次深度的对话。。。。。。
▎以下为与尚阳星的对话全文,,,略有删减:
创投家:您先帮我们界说一下什么叫“高质量的跨本体全身运动数据”???高质量高在哪???
尚阳星:要回覆这个问题,,,先要回覆“我们想要什么运动能力”。。。。。。
对通用全身运动模子来说,,,我们要的是一种能够向上兼容多模态行动意图、向下兼容差别本体硬件、清静可靠、并且可以在重大情形中一连进化的运动能力。。。。。。
而这种能力对数据提出了更高的要求:不是伶仃的运动轨迹,,,而是能同时保存全身协同、使命意图、接触关系、情形上下文、物理可行性和跨本体复用价值的数据。。。。。。
创投家:现有的运动数据形态保存哪些问题???
尚阳星:现有的数据形态,,,单独看都很难自然知足这些要求:
动捕数据可以准确、结构化地纪录人体运动状态,,,但缺失情形信息以及人和情形之间的准确交互;;;;;;遥操作数据严酷绑定特定机械人本体,,,硬件一换,,,复用价值就会显著下降;;;;;;第一人称视频集中在最后和物体交互,,,不可完整表达躯干、下肢、重心和接触之间的全身协调关系;;;;;;第三人称视频虽然能看到整体行动,,,但难以从中提取出准确合理的人体行动。。。。。。
这些数据各自都有价值,,,但单独都缺乏以支持通用全身运动模子需要的数据闭环。。。。。。
创投家:以是通过咱们数据工厂产出的数据是一种怎样的形态???
尚阳星:我们把真正面向通用全身运动模子训练的数据资产,,,界说为跨本体全身运动数据(Cross-Embodiment Whole-Body Motion Data,,,CWM),,,要求 CWM 至少同时知足以下四个性子:
跨本体可重定向性(Cross-embodiment retargetability)。。。。。。统一段行动必需能够通过统一的处理管线,,,在差别显著的多种本体上,,,产出物理自洽的训练样本。。。。。。
全身笼罩性(Whole-body coverage)。。。。。。数据必需完整表达躯干、四肢、手部、手指以及它们之间的协同关系,,,而不可只保存上半身最后轨;;;;;;蛳掳肷聿教。。。。。。
物理可行性(Physical feasibility)。。。。。。一条及格的数据,,,不但是运动学平滑合理,,,还需在目的本体上的动力学具备物理可行性,,,不可泛起浮空、穿透、滑移、失稳、力矩超限等问题。。。。。。
多模态性(Multi-source augmentability)。。。。。。及格的数据还需要同步收罗人体行动、语义标签、第一人称视频、第三人称视频、情形资产和物体资产。。。。。。
知足这四个性子的 CWM 数据,,,不是简朴收罗就能获得,,,它需要许多的后处理才华被生产出来,,,这也是我们建设跨本体全身运动数据工厂的出发点。。。。。。
创投家:为什么说CWM数据“不是靠收罗就能获得”???
尚阳星:关于全身运动控制来说,,,数据要笼罩的不但是几个标准行动,,,而是行走、转身、下蹲、搬运、抓取、支持、避障、恢复平衡、接触切换等大宗一连行动组合。。。。。。
我们内部的判断,,,要训练出一个真正通用的全身运动模子,,,最终需要数十万甚至上百万小时级别的高质量CWM数据。。。。。。在这个量级眼前,,,少量数据在恒久来看很难支持起通用化,,,真正有价值的是能够一直扩张的数据规模。。。。。。
全身运动数据的重大性在于,,,它不是“收罗的行动越多越好”,,,而是必需有准确的数据配方和严酷的数据质量控制。。。。。。同时,,,每条数据还必需经由洗濯、标注、重定向和物理验证。。。。。。否则,,,大规模数据很容易酿成大规模噪声。。。。。。
因此,,,CWM数据生产必需被设计成一套工业化生产系统,,,而收罗只是其中一环。。。。。。
创投家:这套工业化生产系统详细包括哪些环节???
尚阳星:一段行动从被设计出来,,,到能进入训练集,,,还必需经由质检、跨本体重定向、动力学与仿真增强、语义标注,,,以及来自模子训练侧的反馈闭环。。。。。。
这其中,,,专业行动设计职员认真界说行动谱系,,,收罗团队认真高质量同步录制,,,工程团队认真洗濯、名堂化、重定向和仿真回放,,,算法团队认真物理验证、训练反馈和数据筛。。。。。。,,质检团队认真把不可用样本挡在训练集之外。。。。。。
这也是 CWM 数据工厂的焦点价值:用稳固的园地、装备、流水线、专业团队和质检系统,,,把通用全身运动数据酿成一种可一连生产能力。。。。。。
创投家:数据工厂在设计行动这个环节上是怎样操作的???
尚阳星:通用全身运动模子需要一套一连扩展、能笼罩身体协同方式的运动空间。。。。。。这套空间不可只是行动目录的堆叠,,,而要沿几条相互自力的主线填充。。。。。。
首先就是按身体使用方式组织,,,而不是按行动名称充数。。。。。。移动、姿态转换、肢体协同、接触切换和物体操作,,,这些基础维度是后续重大能力的底盘。。。。。。
其次我们会兼顾重大地形、多人交互与情形交互。。。。。。重大地形改变支持战略,,,多人交互引入空间协商,,,情形交互让身体运动与物体、接触面和可达空间深度耦合。。。。。。它们不可靠平地单人行动外推,,,必需显式安排进收罗妄想。。。。。。
第三,,,我们也会保存下意识行为与自由施展。。。。。。剧本只界说使命界线,,,真实运动里尚有大宗没被写下来的部分:个体行动习惯、临场调解和应对意外的本能反映。。。。。。专业行动设计职员会在录制中给出意图与约束,,,同时保存演出者按自身习惯完成行动的空间。。。。。。
第四就是行动恢复与失败兜底。。。。。。模子能不可被安排,,,很洪流平上取决于失败时能不可稳住。。。。。。失衡后的再平衡、碰撞后的避障回缩、非理想姿态下的起身恢复,,,这类样本通常稀缺,,,但直接关系到模子的清静界线。。。。。。
创投家:CWM数据在收罗历程中需要同步收罗多形态的数据,,,这个收罗历程是怎样实现的???
尚阳星:对,,,CWM 的同步收罗不是纯粹录一段人体行动,,,而是要在统一段行动中同步回覆四件事:运动意图、身体运动方式、交互目的与情形。。。。。。这自然要求人体行动、视频、语义、场景被同步纪录。。。。。。
按目今的收罗规范,,,一条完整纪录会只管同步收罗以下四类数据:
人体行动(BVH),,,承载行动语义、身体协同、重心转变和姿态转换;;;;;;
原始视频,,,作为高价值的辅助信号,,,支持视频行动补全与人体行动提。。。。。。,,包括第一人称和第三人称视角;;;;;;
场景交互资产,,,提供行动爆发的情形与物体上下文,,,是把行动放进仿真情形的前置条件。。。。。。主要收罗两类:地形与场景资产、可交互物体资产。。。。。。
语义标签,,,由专业行动设计职员、现场纪录员和 AI 标注系统协同天生,,,界说行动界线、行动种别、场景和意图。。。。。。
之以是必需同步收罗,,,是由于全身运动的价值不在某一个单独模态,,,而在差别模态之间的对应关系。。。。。。若是这些信号没有对齐,,,我们就无法判断手部轨迹对应的是哪一帧物体接触,,,也无法判断脚底受力是否对应目今姿态,,,更无法验证这段行动是否真的可以进入训练集。。。。。。为此,,,数据工厂为所有收罗装备建设了统一的收罗时钟和时间戳系统,,,来包管其对应关系。。。。。。
创投家:关于跨本体重定向这个环节,,,现在行业里通用的解决方案是什么???咱们又是怎样解决的???
尚阳星:重定向(motion retargeting)是把一段以人体或某一参考本体为坐标系的行动,,,转化为目的机械人本体上的轨迹。。。。。。业内普遍的操作方式是以人工为主的调参历程,,,每个型号的机械人都需要单独调试,,,只思量重定向这个环节,,,履历富厚的人或许也需要破费几个小时/台。。。。。。
而现在行业通例做法最大的问题在于:只思量了运动学,,,而没有思量动力学。。。。。。这就导致重定向只是模拟了行动运行的轨迹,,,而没有综合思量本体的质量,,,轴距,,,摩擦力等因素,,,其效果就是跨本体泛化水平不达预期。。。。。。
我们在算法层自研了重定向引擎,,,支持“恣意行动×恣意机型×恣意地形”。。。。。。输入同步收罗的多维度数据,,,就可以输出适配种种本体,,,并且综合思量了地形、接触与枢纽因素的有用效果。。。。。。工程层上,,,统一本体笼统层让新机械人仅靠URDF即可自动适配。。。。。。并且,,,工厂接纳了流式与离线双模式,,,支持边采边重定向,,,将逐条人工调试的事情压缩至靠近实时完成。。。。。。
创投家:重定向之后的数据就可以直接用于模子训练了吗???
尚阳星:尚有一个环节叫数据增强。。。。。。
跨本体重定向输出的是高质量候选轨迹,,,但候选轨;;;;;;共皇亲钪昭盗纷什。。。。。。数据增强要做的是继续把这些候选轨迹酿成更可验证、更可训练、更容易被模子消耗的数据。。。。。。
我们沿三条路径优化这些轨迹:动力学增强、仿真多样性增强、语义标注。。。。。。
动力学增强:把优质样本放进目的本体的动力学与接触模子里,,,通过RL动力学后处理同时控制跟踪误差和物理违反,,,让候选轨迹从“运动学上像”升级为“在目的本体上能跟踪、不穿透、不超扭矩、不违反摩擦锥”。。。。。。
仿真多样性增强:把统一段行动放进差别的虚拟情形里重复执行,,,让CWM资产的笼罩密度成倍放大。。。。。。补齐缺失模态,,,同时扩增视觉与场景多样性。。。。。。
语义标注:AI标注系统辅助天生行动切片、行动种别、接触状态、场景工具、使命语义、失败原因和能力维度等标签,,,由专业行动设计职员认真复核。。。。。。
创投家:工厂最后怎样验证数据资产的有用性???
尚阳星:CWM数据工厂的质量治理则要走两步:先沿生产链路做分层把关,,,再用模子训练的效果做闭环反馈。。。。。。
一条样本从行动需求走到训练集,,,要顺序通过四道自力的质检,,,也就是之前的设计层、原始数据层、重定向层和增强数据层。。。。。。四层把关配合把一条候选样本筛成可入训练集的资产,,,但真正能不可训练出通用全身运动能力,,,最终只能由模子告诉我们。。。。。。
训练侧会把每一次模子评估效果,,,汇总成一份可回写的失败画像。。。。。。失败画像会被直接写回到上游每一层,,,每一层再凭证这份失败画像调解每一步的执行战略。。。。。。
两步合在一起,,,数据工厂就形成了一连迭代闭环,,,将数据置于“设计—收罗—处理—训练—反馈”的闭环链路中,,,从而提升单条数据的有用使用率,,,让数据价值获得最大化释放。。。。。。
创投家:现在数据工厂的本钱结构是怎样的???运营状态怎样???产出怎么样???
尚阳星:现在工厂或许有几十名员工,,,园地规模或许是1000平米左右。。。。。。算上装备的采购以及运营本钱,,,整体投入在万万级别。。。。。。收罗本钱或许是数百元/小时。。。。。。
已往三个月,,,我们在内部试点中跑通了跨本体全身运动数据工厂的端到端链路。。。。。。沿着这条链路,,,我们累计产出了近千小时的高质量CWM数据。。。。。。用这批数据训出的全身运动模子,,,最终在十多款结构、驱动性能、质量漫衍和惯量漫衍差别显著的足式机械人上完成了要害验证。。。。。。
下一阶段的重点,,,是从试点验证转向规;;;;;;。。。。。。我们会把园地、收罗棚、动捕装备、行动设计团队、演出者体例和算法/仿真/逊с力集群同时扩容,,,让前面跑通的产线在更大规模上稳固运转。。。。。。凯时AG目的是在新工厂落地后,,,早期阶段要形成每月数千小时级、面向多构型机械人的高质量CWM数据产出能力。。。。。。
创投家:数据工厂关于行业的价值是什么呢???
尚阳星:我们作为自力第三方的运动模子提供商,,,以及未来的通用操作系统提供商,,,凯时AG目的是面向全行业、适配所有机械人。。。。。。若是没有我们这样的第三方角色保存,,,每家公司想要抵达一流的运动控制效果,,,可能就必需自己来建数据工厂,,,或者把这类数据集都买一遍。。。。。。这个本钱当下就得几万万,,,可能过一段时间会更多。。。。。。
另外,,,现在行业里有几百家人形机械人公司,,,我们展望纵然未来最终收敛,,,至少也会保存几十家,,,可以对标汽车厂商的数目。。。。。。若是每家公司都重新来一遍,,,这是重大的资源铺张。。。。。。
【图片故事】台胞施品卉大陆创业记