李飞飞、Jim Fan、徐丹飞联手,,,,,,给具身智能指了一条新路
2026-07-06 00:13:47 宣布
泉源:喜马拉雅
作者:郭子豪
浏览:2227次
2026年炎天,,,,,,机械人圈被一个近乎“玄色诙谐”的实验效果炸开了锅。。。。。
一支由斯坦福教授李飞飞、英伟达具身智能认真人Jim Fan、佐治亚理工学院助理教授徐丹飞领衔,,,,,,联合Pieter Abbeel、Jitendra Malik、Ken Goldberg、Trevor Darrell等多位顶尖学者的“超等团队”,,,,,,在一项消融比照实验中遇到了一个百思不得其解的征象。。。。。
他们在一个名为π0.5的行业经典模子上做了一件看似理所虽然的事——把触觉信号作为特殊信息输入给模子。。。。。按常理,,,,,,多一种感知应该多一分精准。。。。。效果却令人瞠目:据论文中的消融实验显示,,,,,,使命乐成率从17%骤降至6%。。。。。
加了触觉,,,,,,机械人反而“不会干活”了。。。。。
这个反常效果,,,,,,像一记耳光打在了整个具身智能行业的脸上。。。。。已往几年,,,,,,业界的主流做法是把一切感知信息——视觉、语言、触觉——一切转成统一种名堂塞进统一个大模子里,,,,,,相信“数据多了自然智能涌现”。。。。。T-Rex论文用一组酷寒的数据证实:这条路,,,,,,可能从一最先就走偏了。。。。。
触觉为什么成了“猪队友”??????
问题出在那里??????论文作者们给出了一个精练而有力的诊断:频率错配。。。。。
据论文及相关手艺解读,,,,,,视觉是一种“慢感知”。。。。。摄像头以约莫每秒5帧的频率扫描天下,,,,,,提供的是稳固的场景语义——知道物体在那里、长什么样。。。。。但触觉是一种“快感知”。。。。。当指尖接触到物体的瞬间,,,,,,压力、滑动、形变等信息以毫秒为单位转变,,,,,,触觉反馈自然需要在每秒20次甚至更高的频率下才华施展作用。。。。。
打个例如:这就像让一个长跑运发动(视觉)和一个短跑运发动(触觉)在统一条跑道上以同样的速率跑步。。。。。长跑运发动以为节奏太快跟不上,,,,,,短跑运发动以为节奏太慢憋得慌。。。。。把这两种时间标准完全差别的信号强行塞进统一个以低频运行的Transformer里,,,,,,效果不是“1+1=2”,,,,,,而是“1+1<1”——触觉的高频优势施展不出来,,,,,,反而把视觉已经学好的表征搅得一团糟。。。。。
换句话说,,,,,,不是触觉没用,,,,,,是用错了地方。。。。。
面临这个结构性矛盾,,,,,,研究团队没有在原有框架上修修补补,,,,,,而是选择推倒重来。。。。。
他们提出了一套名为T-Rex的全新框架。。。。。T-Rex既是“触觉反映式灵巧操作”(Tactile-Reactive Dexterous Manipulation)的缩写,,,,,,也暗合“霸王龙”之意——虽然霸王龙的前肢短小,,,,,,但这篇论文要解决的,,,,,,正是一双灵巧手怎样真正“感知”天下。。。。。
T-Rex的焦点思绪可以概括为一句话:别再让触觉和视觉抢统一条算力通道了,,,,,,给它单独开发一条自力的高速公路。。。。。
详细怎么实现??????论文提出了一套混淆Transformer专家架构(Mixture-of-Transformers,,,,,,MoT) 。。。。。所谓“混淆”,,,,,,是把机械人的控制权拆解给三位各司其职的专家;;;;所谓“变速率”,,,,,,是让三位专家各跑各的时钟频率,,,,,,互不滋扰。。。。。MoT中的“M”恰恰同时代表了这两层寄义。。。。。
第一位专家认真“看路”和“预判”——它叫潜在专家。。。。。 它的使命是处理视觉和语言信息,,,,,,展望“接下来场景会酿成什么样”,,,,,,为后续行动提供时间上的上下文。。。。。说白了,,,,,,它在提前想好下一步会爆发什么。。。。。
第二位专家认真“画草图”——它叫行动专家。。。。。 它从一片“噪声”最先,,,,,,通过一步步去噪,,,,,,天生一个大致的行动走向——“手往这个偏向移动”。。。。。这个模?????榈脑诵衅德试寄敲棵5次,,,,,,对应视觉感知的自然节奏。。。。。
第三位专家认真“微调”——它叫触觉专家。。。。。 它不加入前期的全局妄想,,,,,,只在接触爆发的瞬间启动,,,,,,以每秒20次以上的高频实时读取指尖传来的力和形变信号,,,,,,在行动专家画好的“草图”上做毫秒级的细腻修正——“力道轻一点”“往左偏一毫米”。。。。。
三个专家的协同流程是这样的:行动专家先跑完前几步,,,,,,画出一张行动草图;;;;触觉专家从某其中心节点接手,,,,,,使用最新的触觉数据完成剩余方法的精化。。。。。行动专家认真“低频去噪”,,,,,,触觉专家认真“高频精化” 。。。。。潜在专家全程“看路”,,,,,,为两者提供视觉上下文。。。。。三位专家各跑各的时钟,,,,,,各司其职,,,,,,最后协同输出完整的行动。。。。。
T-Rex 的 Mixture-of-Transformer-Experts(MoT)架构。。。。。(图片泉源:T-Rex)
为了让触觉专家真正“读懂”触觉信号,,,,,,论文还专门设计了一套时空触觉编码器。。。。。焦点是一个VQ-VAE模?????椤憧梢园阉魅肺桓觥胺牍佟,,,,,,把已往十几帧的时序力数据压缩成离散的“触觉词汇”,,,,,,既能捕获力的转变趋势,,,,,,又能反抗传感器的信号漂移。。。。。这样一来,,,,,,触觉专家吸收到的就是一套标准化的“触觉语言”,,,,,,而非杂乱无章的原始信号。。。。。
这套设计的实质,,,,,,就是给高频触觉信号辟出一条自力的通道,,,,,,不让它被低频的视觉节奏拖累。。。。。 三个专家各跑各的频率,,,,,,各管各的事,,,,,,互不滋扰,,,,,,最后再协同输出一个完整的行动——既保存了视觉对全局的把控,,,,,,又彻底释放了触觉在接触瞬间的迅速反映能力。。。。。
数据层面同样下足了功夫。。。。。团队构建了一个100小时的触觉同步数据集,,,,,,涵盖200多种日常物品、22种行动基元(抓取、挤压、插入、擦拭、折叠等)、7700多条运动轨迹。。。。。与古板做法差别,,,,,,这个数据集不是针对某个特定使命录制的,,,,,,而是围绕“行动×物体”的组合来组织——22个行动搭配200多种物品,,,,,,通过排列组合笼罩尽可能多样的接触场景。。。。。这让模子学到的是通用的触觉-行动对应关系,,,,,,而非死记硬背特定使命的模板。。。。。
训练战略同样极具条理感。。。。。团队先用22,889小时的人类第一视角视频举行大规模预训练,,,,,,让模子明确人类的手部交互模式;;;;再用上述100小时的机械人触觉数据举行跨模态对齐;;;;最后仅需少量特定使命树模即可完成专项能力的激活。。。。。这种渐进式训练的利益是,,,,,,触觉能力不需要重新学起,,,,,,而是在视觉运动先验已经建设之后,,,,,,以相对少的数据“嫁接”进来。。。。。
12项“刁难级”使命,,,,,,30个百分点的跨越
这套架构究竟有没有用??????论文在12项专门为“刁难”机械人而设计的细腻操作使命上举行了严苛测试——翻书页、转移生鸡蛋、擦盘子、挤牙膏、分纸杯、分拣麻将、开锁、填药盒、模拟化学滴定、抽卡片、发扑克牌、拧灯胆。。。。。每一项都要求机械人对接触力举行动态的、即时的调理。。。。。
T-Rex 完成翻书等接触麋集型使命(图片泉源:T-Rex)
最终效果令人振奋:T-Rex相较此前最强的基线模子,,,,,,在这12项使命上取得了凌驾30%的平均乐成率提升。。。。。在翻书页、分纸杯等对力度极为敏感的使命中,,,,,,T-Rex的体现从“险些不可用”跃升到了“起源具备适用价值”。。。。。
进一步的消融实验反向印证了设计的精妙:一旦切除所有触觉输入通道,,,,,,系统乐成率泛起断崖式下跌;;;;而若是强行作废异步运行机制,,,,,,让触觉被迫降频与视觉同步,,,,,,性能同样会显著劣化。。。。。这恰恰说明,,,,,,T-Rex的乐成并非纯粹来自“加了触觉”,,,,,,而是来自“用对了触觉”——给它自力的节奏、自力的通道、自力的处理逻辑。。。。。
T-Rex这篇论文的价值,,,,,,远不止于一组漂亮的实验数据。。。。。它用一个极具说服力的反例,,,,,,向整个具身智能行业发出了一个明确的警示信号:
“万物皆token、一切进大模子”的通用范式,,,,,,并不自然适用于所有感知模态。。。。。
视觉和语言是“慢变量”,,,,,,适合放在统一个重大的Transformer里做全局关联推理;;;;但触觉是“快变量”,,,,,,它关乎物理接触和即时反馈,,,,,,需要单独的高频闭环控制回路。。。。。强行把两者塞进统一个模子,,,,,,效果不是融合,,,,,,而是污染。。。。。
这让人遐想到神经科学中经典的双流假说——视觉腹侧通路认真“识别是什么”,,,,,,背侧通路认真“指导怎么做”。。。。。T-Rex的混淆专家架构,,,,,,某种水平上是在机械人身上复刻了这种生物演化的高级智慧。。。。。
虽然,,,,,,论文也坦诚了目今的局限性:关于需要数秒级连贯协调的重大操作,,,,,,纯粹的行为克隆仍受限于树模数据的笼罩度;;;;目今触觉感知仅限于指尖而非全手掌,,,,,,且传感器标定与漂移问题仍是工程痛点。。。。。但这些属于“生长中的懊恼”,,,,,,并不故障T-Rex所确立的范式意义。。。。。
这篇论文转达的焦点信息已经无比清晰:别再让机械人光靠“瞪大眼睛看”来干活了,,,,,,是时间让它们学会“伸脱手去摸”。。。。。 触觉不应是视觉的附庸,,,,,,而应是一条自力的、与视觉平起平坐的物理感知通道。。。。。
谁人“17%跌到6%”的反常实验,,,,,,或许正是机械人从“望见天下”走向“感知天下”的要害转折点。。。。。(本文首发钛媒体APP,,,,,,作者 | 硅谷Tech-news,,,,,,编辑 | 赵虹宇)
首先,,,,,,在妄想结构上增强协同。。。。。西部地区,,,,,,统筹国家算力枢纽结构与大型新能源基地妄想建设,,,,,,推进算力设施与电力系统协同建设。。。。。东部地区,,,,,,推动漫衍式算力与漫衍式电源、微电网、虚拟电厂协同妄想,,,,,,就近响应算力需求。。。。。
责任编辑:张俊吉 校对:金淳恩