李飞飞、Jim Fan、徐丹飞联手,,,,给具身智能指了一条新路
2026-07-06 04:36:11 宣布
泉源:征信中心
作者:刘郁紫
浏览:5524次
2026年炎天,,,,机械人圈被一个近乎“玄色诙谐”的实验效果炸开了锅。。。
一支由斯坦福教授李飞飞、英伟达具身智能认真人Jim Fan、佐治亚理工学院助理教授徐丹飞领衔,,,,联合Pieter Abbeel、Jitendra Malik、Ken Goldberg、Trevor Darrell等多位顶尖学者的“超等团队”,,,,在一项消融比照实验中遇到了一个百思不得其解的征象。。。
他们在一个名为π0.5的行业经典模子上做了一件看似理所虽然的事——把触觉信号作为特殊信息输入给模子。。。按常理,,,,多一种感知应该多一分精准。。。效果却令人瞠目:据论文中的消融实验显示,,,,使命乐成率从17%骤降至6%。。。
加了触觉,,,,机械人反而“不会干活”了。。。
这个反常效果,,,,像一记耳光打在了整个具身智能行业的脸上。。。已往几年,,,,业界的主流做法是把一切感知信息——视觉、语言、触觉——一切转成统一种名堂塞进统一个大模子里,,,,相信“数据多了自然智能涌现”。。。T-Rex论文用一组酷寒的数据证实:这条路,,,,可能从一最先就走偏了。。。
触觉为什么成了“猪队友”???
问题出在那里???论文作者们给出了一个精练而有力的诊断:频率错配。。。
据论文及相关手艺解读,,,,视觉是一种“慢感知”。。。摄像头以约莫每秒5帧的频率扫描天下,,,,提供的是稳固的场景语义——知道物体在那里、长什么样。。。但触觉是一种“快感知”。。。当指尖接触到物体的瞬间,,,,压力、滑动、形变等信息以毫秒为单位转变,,,,触觉反馈自然需要在每秒20次甚至更高的频率下才华施展作用。。。
打个例如:这就像让一个长跑运发动(视觉)和一个短跑运发动(触觉)在统一条跑道上以同样的速率跑步。。。长跑运发动以为节奏太快跟不上,,,,短跑运发动以为节奏太慢憋得慌。。。把这两种时间标准完全差别的信号强行塞进统一个以低频运行的Transformer里,,,,效果不是“1+1=2”,,,,而是“1+1<1”——触觉的高频优势施展不出来,,,,反而把视觉已经学好的表征搅得一团糟。。。
换句话说,,,,不是触觉没用,,,,是用错了地方。。。
面临这个结构性矛盾,,,,研究团队没有在原有框架上修修补补,,,,而是选择推倒重来。。。
他们提出了一套名为T-Rex的全新框架。。。T-Rex既是“触觉反映式灵巧操作”(Tactile-Reactive Dexterous Manipulation)的缩写,,,,也暗合“霸王龙”之意——虽然霸王龙的前肢短小,,,,但这篇论文要解决的,,,,正是一双灵巧手怎样真正“感知”天下。。。
T-Rex的焦点思绪可以概括为一句话:别再让触觉和视觉抢统一条算力通道了,,,,给它单独开发一条自力的高速公路。。。
详细怎么实现???论文提出了一套混淆Transformer专家架构(Mixture-of-Transformers,,,,MoT) 。。。所谓“混淆”,,,,是把机械人的控制权拆解给三位各司其职的专家;;;;;;所谓“变速率”,,,,是让三位专家各跑各的时钟频率,,,,互不滋扰。。。MoT中的“M”恰恰同时代表了这两层寄义。。。
第一位专家认真“看路”和“预判”——它叫潜在专家。。。 它的使命是处理视觉和语言信息,,,,展望“接下来场景会酿成什么样”,,,,为后续行动提供时间上的上下文。。。说白了,,,,它在提前想好下一步会爆发什么。。。
第二位专家认真“画草图”——它叫行动专家。。。 它从一片“噪声”最先,,,,通过一步步去噪,,,,天生一个大致的行动走向——“手往这个偏向移动”。。。这个???榈脑诵衅德试寄敲棵5次,,,,对应视觉感知的自然节奏。。。
第三位专家认真“微调”——它叫触觉专家。。。 它不加入前期的全局妄想,,,,只在接触爆发的瞬间启动,,,,以每秒20次以上的高频实时读取指尖传来的力和形变信号,,,,在行动专家画好的“草图”上做毫秒级的细腻修正——“力道轻一点”“往左偏一毫米”。。。
三个专家的协同流程是这样的:行动专家先跑完前几步,,,,画出一张行动草图;;;;;;触觉专家从某其中心节点接手,,,,使用最新的触觉数据完成剩余方法的精化。。。行动专家认真“低频去噪”,,,,触觉专家认真“高频精化” 。。。潜在专家全程“看路”,,,,为两者提供视觉上下文。。。三位专家各跑各的时钟,,,,各司其职,,,,最后协同输出完整的行动。。。
T-Rex 的 Mixture-of-Transformer-Experts(MoT)架构。。。(图片泉源:T-Rex)
为了让触觉专家真正“读懂”触觉信号,,,,论文还专门设计了一套时空触觉编码器。。。焦点是一个VQ-VAE???椤憧梢园阉魅肺桓觥胺牍佟,,,,把已往十几帧的时序力数据压缩成离散的“触觉词汇”,,,,既能捕获力的转变趋势,,,,又能反抗传感器的信号漂移。。。这样一来,,,,触觉专家吸收到的就是一套标准化的“触觉语言”,,,,而非杂乱无章的原始信号。。。
这套设计的实质,,,,就是给高频触觉信号辟出一条自力的通道,,,,不让它被低频的视觉节奏拖累。。。 三个专家各跑各的频率,,,,各管各的事,,,,互不滋扰,,,,最后再协同输出一个完整的行动——既保存了视觉对全局的把控,,,,又彻底释放了触觉在接触瞬间的迅速反映能力。。。
数据层面同样下足了功夫。。。团队构建了一个100小时的触觉同步数据集,,,,涵盖200多种日常物品、22种行动基元(抓取、挤压、插入、擦拭、折叠等)、7700多条运动轨迹。。。与古板做法差别,,,,这个数据集不是针对某个特定使命录制的,,,,而是围绕“行动×物体”的组合来组织——22个行动搭配200多种物品,,,,通过排列组合笼罩尽可能多样的接触场景。。。这让模子学到的是通用的触觉-行动对应关系,,,,而非死记硬背特定使命的模板。。。
训练战略同样极具条理感。。。团队先用22,889小时的人类第一视角视频举行大规模预训练,,,,让模子明确人类的手部交互模式;;;;;;再用上述100小时的机械人触觉数据举行跨模态对齐;;;;;;最后仅需少量特定使命树模即可完成专项能力的激活。。。这种渐进式训练的利益是,,,,触觉能力不需要重新学起,,,,而是在视觉运动先验已经建设之后,,,,以相对少的数据“嫁接”进来。。。
12项“刁难级”使命,,,,30个百分点的跨越
这套架构究竟有没有用???论文在12项专门为“刁难”机械人而设计的细腻操作使命上举行了严苛测试——翻书页、转移生鸡蛋、擦盘子、挤牙膏、分纸杯、分拣麻将、开锁、填药盒、模拟化学滴定、抽卡片、发扑克牌、拧灯胆。。。每一项都要求机械人对接触力举行动态的、即时的调理。。。
T-Rex 完成翻书等接触麋集型使命(图片泉源:T-Rex)
最终效果令人振奋:T-Rex相较此前最强的基线模子,,,,在这12项使命上取得了凌驾30%的平均乐成率提升。。。在翻书页、分纸杯等对力度极为敏感的使命中,,,,T-Rex的体现从“险些不可用”跃升到了“起源具备适用价值”。。。
进一步的消融实验反向印证了设计的精妙:一旦切除所有触觉输入通道,,,,系统乐成率泛起断崖式下跌;;;;;;而若是强行作废异步运行机制,,,,让触觉被迫降频与视觉同步,,,,性能同样会显著劣化。。。这恰恰说明,,,,T-Rex的乐成并非纯粹来自“加了触觉”,,,,而是来自“用对了触觉”——给它自力的节奏、自力的通道、自力的处理逻辑。。。
T-Rex这篇论文的价值,,,,远不止于一组漂亮的实验数据。。。它用一个极具说服力的反例,,,,向整个具身智能行业发出了一个明确的警示信号:
“万物皆token、一切进大模子”的通用范式,,,,并不自然适用于所有感知模态。。。
视觉和语言是“慢变量”,,,,适合放在统一个重大的Transformer里做全局关联推理;;;;;;但触觉是“快变量”,,,,它关乎物理接触和即时反馈,,,,需要单独的高频闭环控制回路。。。强行把两者塞进统一个模子,,,,效果不是融合,,,,而是污染。。。
这让人遐想到神经科学中经典的双流假说——视觉腹侧通路认真“识别是什么”,,,,背侧通路认真“指导怎么做”。。。T-Rex的混淆专家架构,,,,某种水平上是在机械人身上复刻了这种生物演化的高级智慧。。。
虽然,,,,论文也坦诚了目今的局限性:关于需要数秒级连贯协调的重大操作,,,,纯粹的行为克隆仍受限于树模数据的笼罩度;;;;;;目今触觉感知仅限于指尖而非全手掌,,,,且传感器标定与漂移问题仍是工程痛点。。。但这些属于“生长中的懊恼”,,,,并不故障T-Rex所确立的范式意义。。。
这篇论文转达的焦点信息已经无比清晰:别再让机械人光靠“瞪大眼睛看”来干活了,,,,是时间让它们学会“伸脱手去摸”。。。 触觉不应是视觉的附庸,,,,而应是一条自力的、与视觉平起平坐的物理感知通道。。。
谁人“17%跌到6%”的反常实验,,,,或许正是机械人从“望见天下”走向“感知天下”的要害转折点。。。(本文首发钛媒体APP,,,,作者 | 硅谷Tech-news,,,,编辑 | 赵虹宇)
《预案》包括总则、组织机构、预判预警与值班安排、应急响应、包管步伐、培训演练、预案治理和附件8部分内容,,,,作为国家层面部分应急预案,,,,适用于自然资源部组织开展的我国统领海域规模内风暴潮(海水倒灌)、海浪、海冰和海啸灾难的视察、预警和灾难视察评估等事情。。。
责任编辑:袁富毓 校对:陈郁文