凯时AG

2026-07-06 04:36:11 设为首页 | 加入珍藏

李飞飞、Jim Fan、徐丹飞联手，，，，给具身智能指了一条新路

2026-07-06 04:36:11 宣布泉源：征信中心作者：刘郁紫浏览：5524次

2026年炎天，，，，机械人圈被一个近乎“玄色诙谐”的实验效果炸开了锅。。。

一支由斯坦福教授李飞飞、英伟达具身智能认真人Jim Fan、佐治亚理工学院助理教授徐丹飞领衔，，，，联合Pieter Abbeel、Jitendra Malik、Ken Goldberg、Trevor Darrell等多位顶尖学者的“超等团队”，，，，在一项消融比照实验中遇到了一个百思不得其解的征象。。。

他们在一个名为π0.5的行业经典模子上做了一件看似理所虽然的事——把触觉信号作为特殊信息输入给模子。。。按常理，，，，多一种感知应该多一分精准。。。效果却令人瞠目：据论文中的消融实验显示，，，，使命乐成率从17%骤降至6%。。。

加了触觉，，，，机械人反而“不会干活”了。。。

这个反常效果，，，，像一记耳光打在了整个具身智能行业的脸上。。。已往几年，，，，业界的主流做法是把一切感知信息——视觉、语言、触觉——一切转成统一种名堂塞进统一个大模子里，，，，相信“数据多了自然智能涌现”。。。T-Rex论文用一组酷寒的数据证实：这条路，，，，可能从一最先就走偏了。。。

触觉为什么成了“猪队友”？？？

问题出在那里？？？论文作者们给出了一个精练而有力的诊断：频率错配。。。

据论文及相关手艺解读，，，，视觉是一种“慢感知”。。。摄像头以约莫每秒5帧的频率扫描天下，，，，提供的是稳固的场景语义——知道物体在那里、长什么样。。。但触觉是一种“快感知”。。。当指尖接触到物体的瞬间，，，，压力、滑动、形变等信息以毫秒为单位转变，，，，触觉反馈自然需要在每秒20次甚至更高的频率下才华施展作用。。。

打个例如：这就像让一个长跑运发动（视觉）和一个短跑运发动（触觉）在统一条跑道上以同样的速率跑步。。。长跑运发动以为节奏太快跟不上，，，，短跑运发动以为节奏太慢憋得慌。。。把这两种时间标准完全差别的信号强行塞进统一个以低频运行的Transformer里，，，，效果不是“1+1=2”，，，，而是“1+1<1”——触觉的高频优势施展不出来，，，，反而把视觉已经学好的表征搅得一团糟。。。

换句话说，，，，不是触觉没用，，，，是用错了地方。。。

面临这个结构性矛盾，，，，研究团队没有在原有框架上修修补补，，，，而是选择推倒重来。。。

他们提出了一套名为T-Rex的全新框架。。。T-Rex既是“触觉反映式灵巧操作”（Tactile-Reactive Dexterous Manipulation）的缩写，，，，也暗合“霸王龙”之意——虽然霸王龙的前肢短小，，，，但这篇论文要解决的，，，，正是一双灵巧手怎样真正“感知”天下。。。

T-Rex的焦点思绪可以概括为一句话：别再让触觉和视觉抢统一条算力通道了，，，，给它单独开发一条自力的高速公路。。。

详细怎么实现？？？论文提出了一套混淆Transformer专家架构（Mixture-of-Transformers，，，，MoT）。。。所谓“混淆”，，，，是把机械人的控制权拆解给三位各司其职的专家；；；；；；所谓“变速率”，，，，是让三位专家各跑各的时钟频率，，，，互不滋扰。。。MoT中的“M”恰恰同时代表了这两层寄义。。。

第一位专家认真“看路”和“预判”——它叫潜在专家。。。它的使命是处理视觉和语言信息，，，，展望“接下来场景会酿成什么样”，，，，为后续行动提供时间上的上下文。。。说白了，，，，它在提前想好下一步会爆发什么。。。

第二位专家认真“画草图”——它叫行动专家。。。它从一片“噪声”最先，，，，通过一步步去噪，，，，天生一个大致的行动走向——“手往这个偏向移动”。。。这个？？？榈脑诵衅德试寄敲棵5次，，，，对应视觉感知的自然节奏。。。

第三位专家认真“微调”——它叫触觉专家。。。它不加入前期的全局妄想，，，，只在接触爆发的瞬间启动，，，，以每秒20次以上的高频实时读取指尖传来的力和形变信号，，，，在行动专家画好的“草图”上做毫秒级的细腻修正——“力道轻一点”“往左偏一毫米”。。。

三个专家的协同流程是这样的：行动专家先跑完前几步，，，，画出一张行动草图；；；；；；触觉专家从某其中心节点接手，，，，使用最新的触觉数据完成剩余方法的精化。。。行动专家认真“低频去噪”，，，，触觉专家认真“高频精化” 。。。潜在专家全程“看路”，，，，为两者提供视觉上下文。。。三位专家各跑各的时钟，，，，各司其职，，，，最后协同输出完整的行动。。。

T-Rex 的 Mixture-of-Transformer-Experts（MoT）架构。。。（图片泉源：T-Rex）

为了让触觉专家真正“读懂”触觉信号，，，，论文还专门设计了一套时空触觉编码器。。。焦点是一个VQ-VAE？？？椤憧梢园阉魅肺桓觥胺牍佟，，，，把已往十几帧的时序力数据压缩成离散的“触觉词汇”，，，，既能捕获力的转变趋势，，，，又能反抗传感器的信号漂移。。。这样一来，，，，触觉专家吸收到的就是一套标准化的“触觉语言”，，，，而非杂乱无章的原始信号。。。

这套设计的实质，，，，就是给高频触觉信号辟出一条自力的通道，，，，不让它被低频的视觉节奏拖累。。。三个专家各跑各的频率，，，，各管各的事，，，，互不滋扰，，，，最后再协同输出一个完整的行动——既保存了视觉对全局的把控，，，，又彻底释放了触觉在接触瞬间的迅速反映能力。。。

数据层面同样下足了功夫。。。团队构建了一个100小时的触觉同步数据集，，，，涵盖200多种日常物品、22种行动基元（抓取、挤压、插入、擦拭、折叠等）、7700多条运动轨迹。。。与古板做法差别，，，，这个数据集不是针对某个特定使命录制的，，，，而是围绕“行动×物体”的组合来组织——22个行动搭配200多种物品，，，，通过排列组合笼罩尽可能多样的接触场景。。。这让模子学到的是通用的触觉-行动对应关系，，，，而非死记硬背特定使命的模板。。。

训练战略同样极具条理感。。。团队先用22,889小时的人类第一视角视频举行大规模预训练，，，，让模子明确人类的手部交互模式；；；；；；再用上述100小时的机械人触觉数据举行跨模态对齐；；；；；；最后仅需少量特定使命树模即可完成专项能力的激活。。。这种渐进式训练的利益是，，，，触觉能力不需要重新学起，，，，而是在视觉运动先验已经建设之后，，，，以相对少的数据“嫁接”进来。。。

12项“刁难级”使命，，，，30个百分点的跨越

这套架构究竟有没有用？？？论文在12项专门为“刁难”机械人而设计的细腻操作使命上举行了严苛测试——翻书页、转移生鸡蛋、擦盘子、挤牙膏、分纸杯、分拣麻将、开锁、填药盒、模拟化学滴定、抽卡片、发扑克牌、拧灯胆。。。每一项都要求机械人对接触力举行动态的、即时的调理。。。

T-Rex 完成翻书等接触麋集型使命（图片泉源：T-Rex）

最终效果令人振奋：T-Rex相较此前最强的基线模子，，，，在这12项使命上取得了凌驾30%的平均乐成率提升。。。在翻书页、分纸杯等对力度极为敏感的使命中，，，，T-Rex的体现从“险些不可用”跃升到了“起源具备适用价值”。。。

进一步的消融实验反向印证了设计的精妙：一旦切除所有触觉输入通道，，，，系统乐成率泛起断崖式下跌；；；；；；而若是强行作废异步运行机制，，，，让触觉被迫降频与视觉同步，，，，性能同样会显著劣化。。。这恰恰说明，，，，T-Rex的乐成并非纯粹来自“加了触觉”，，，，而是来自“用对了触觉”——给它自力的节奏、自力的通道、自力的处理逻辑。。。

T-Rex这篇论文的价值，，，，远不止于一组漂亮的实验数据。。。它用一个极具说服力的反例，，，，向整个具身智能行业发出了一个明确的警示信号：

“万物皆token、一切进大模子”的通用范式，，，，并不自然适用于所有感知模态。。。

视觉和语言是“慢变量”，，，，适合放在统一个重大的Transformer里做全局关联推理；；；；；；但触觉是“快变量”，，，，它关乎物理接触和即时反馈，，，，需要单独的高频闭环控制回路。。。强行把两者塞进统一个模子，，，，效果不是融合，，，，而是污染。。。

这让人遐想到神经科学中经典的双流假说——视觉腹侧通路认真“识别是什么”，，，，背侧通路认真“指导怎么做”。。。T-Rex的混淆专家架构，，，，某种水平上是在机械人身上复刻了这种生物演化的高级智慧。。。

虽然，，，，论文也坦诚了目今的局限性：关于需要数秒级连贯协调的重大操作，，，，纯粹的行为克隆仍受限于树模数据的笼罩度；；；；；；目今触觉感知仅限于指尖而非全手掌，，，，且传感器标定与漂移问题仍是工程痛点。。。但这些属于“生长中的懊恼”，，，，并不故障T-Rex所确立的范式意义。。。

这篇论文转达的焦点信息已经无比清晰：别再让机械人光靠“瞪大眼睛看”来干活了，，，，是时间让它们学会“伸脱手去摸”。。。触觉不应是视觉的附庸，，，，而应是一条自力的、与视觉平起平坐的物理感知通道。。。

谁人“17%跌到6%”的反常实验，，，，或许正是机械人从“望见天下”走向“感知天下”的要害转折点。。。（本文首发钛媒体APP，，，，作者 | 硅谷Tech-news，，，，编辑 | 赵虹宇）

《预案》包括总则、组织机构、预判预警与值班安排、应急响应、包管步伐、培训演练、预案治理和附件8部分内容，，，，作为国家层面部分应急预案，，，，适用于自然资源部组织开展的我国统领海域规模内风暴潮(海水倒灌)、海浪、海冰和海啸灾难的视察、预警和灾难视察评估等事情。。。

责任编辑：袁富毓校对：陈郁文

今日热门

相关推荐

【网站地图】