凯时AG

2026-07-06 00:13:47 设为首页 | 加入珍藏

李飞飞、Jim Fan、徐丹飞联手，，，，，，给具身智能指了一条新路

2026-07-06 00:13:47 宣布泉源：喜马拉雅作者：郭子豪浏览：2227次

2026年炎天，，，，，，机械人圈被一个近乎“玄色诙谐”的实验效果炸开了锅。。。。。

一支由斯坦福教授李飞飞、英伟达具身智能认真人Jim Fan、佐治亚理工学院助理教授徐丹飞领衔，，，，，，联合Pieter Abbeel、Jitendra Malik、Ken Goldberg、Trevor Darrell等多位顶尖学者的“超等团队”，，，，，，在一项消融比照实验中遇到了一个百思不得其解的征象。。。。。

他们在一个名为π0.5的行业经典模子上做了一件看似理所虽然的事——把触觉信号作为特殊信息输入给模子。。。。。按常理，，，，，，多一种感知应该多一分精准。。。。。效果却令人瞠目：据论文中的消融实验显示，，，，，，使命乐成率从17%骤降至6%。。。。。

加了触觉，，，，，，机械人反而“不会干活”了。。。。。

这个反常效果，，，，，，像一记耳光打在了整个具身智能行业的脸上。。。。。已往几年，，，，，，业界的主流做法是把一切感知信息——视觉、语言、触觉——一切转成统一种名堂塞进统一个大模子里，，，，，，相信“数据多了自然智能涌现”。。。。。T-Rex论文用一组酷寒的数据证实：这条路，，，，，，可能从一最先就走偏了。。。。。

触觉为什么成了“猪队友”？？？？？？

问题出在那里？？？？？？论文作者们给出了一个精练而有力的诊断：频率错配。。。。。

据论文及相关手艺解读，，，，，，视觉是一种“慢感知”。。。。。摄像头以约莫每秒5帧的频率扫描天下，，，，，，提供的是稳固的场景语义——知道物体在那里、长什么样。。。。。但触觉是一种“快感知”。。。。。当指尖接触到物体的瞬间，，，，，，压力、滑动、形变等信息以毫秒为单位转变，，，，，，触觉反馈自然需要在每秒20次甚至更高的频率下才华施展作用。。。。。

打个例如：这就像让一个长跑运发动（视觉）和一个短跑运发动（触觉）在统一条跑道上以同样的速率跑步。。。。。长跑运发动以为节奏太快跟不上，，，，，，短跑运发动以为节奏太慢憋得慌。。。。。把这两种时间标准完全差别的信号强行塞进统一个以低频运行的Transformer里，，，，，，效果不是“1+1=2”，，，，，，而是“1+1<1”——触觉的高频优势施展不出来，，，，，，反而把视觉已经学好的表征搅得一团糟。。。。。

换句话说，，，，，，不是触觉没用，，，，，，是用错了地方。。。。。

面临这个结构性矛盾，，，，，，研究团队没有在原有框架上修修补补，，，，，，而是选择推倒重来。。。。。

他们提出了一套名为T-Rex的全新框架。。。。。T-Rex既是“触觉反映式灵巧操作”（Tactile-Reactive Dexterous Manipulation）的缩写，，，，，，也暗合“霸王龙”之意——虽然霸王龙的前肢短小，，，，，，但这篇论文要解决的，，，，，，正是一双灵巧手怎样真正“感知”天下。。。。。

T-Rex的焦点思绪可以概括为一句话：别再让触觉和视觉抢统一条算力通道了，，，，，，给它单独开发一条自力的高速公路。。。。。

详细怎么实现？？？？？？论文提出了一套混淆Transformer专家架构（Mixture-of-Transformers，，，，，，MoT）。。。。。所谓“混淆”，，，，，，是把机械人的控制权拆解给三位各司其职的专家；；；；所谓“变速率”，，，，，，是让三位专家各跑各的时钟频率，，，，，，互不滋扰。。。。。MoT中的“M”恰恰同时代表了这两层寄义。。。。。

第一位专家认真“看路”和“预判”——它叫潜在专家。。。。。它的使命是处理视觉和语言信息，，，，，，展望“接下来场景会酿成什么样”，，，，，，为后续行动提供时间上的上下文。。。。。说白了，，，，，，它在提前想好下一步会爆发什么。。。。。

第二位专家认真“画草图”——它叫行动专家。。。。。它从一片“噪声”最先，，，，，，通过一步步去噪，，，，，，天生一个大致的行动走向——“手往这个偏向移动”。。。。。这个模？？？？？榈脑诵衅德试寄敲棵5次，，，，，，对应视觉感知的自然节奏。。。。。

第三位专家认真“微调”——它叫触觉专家。。。。。它不加入前期的全局妄想，，，，，，只在接触爆发的瞬间启动，，，，，，以每秒20次以上的高频实时读取指尖传来的力和形变信号，，，，，，在行动专家画好的“草图”上做毫秒级的细腻修正——“力道轻一点”“往左偏一毫米”。。。。。

三个专家的协同流程是这样的：行动专家先跑完前几步，，，，，，画出一张行动草图；；；；触觉专家从某其中心节点接手，，，，，，使用最新的触觉数据完成剩余方法的精化。。。。。行动专家认真“低频去噪”，，，，，，触觉专家认真“高频精化” 。。。。。潜在专家全程“看路”，，，，，，为两者提供视觉上下文。。。。。三位专家各跑各的时钟，，，，，，各司其职，，，，，，最后协同输出完整的行动。。。。。

T-Rex 的 Mixture-of-Transformer-Experts（MoT）架构。。。。。（图片泉源：T-Rex）

为了让触觉专家真正“读懂”触觉信号，，，，，，论文还专门设计了一套时空触觉编码器。。。。。焦点是一个VQ-VAE模？？？？？椤憧梢园阉魅肺桓觥胺牍佟，，，，，，把已往十几帧的时序力数据压缩成离散的“触觉词汇”，，，，，，既能捕获力的转变趋势，，，，，，又能反抗传感器的信号漂移。。。。。这样一来，，，，，，触觉专家吸收到的就是一套标准化的“触觉语言”，，，，，，而非杂乱无章的原始信号。。。。。

这套设计的实质，，，，，，就是给高频触觉信号辟出一条自力的通道，，，，，，不让它被低频的视觉节奏拖累。。。。。三个专家各跑各的频率，，，，，，各管各的事，，，，，，互不滋扰，，，，，，最后再协同输出一个完整的行动——既保存了视觉对全局的把控，，，，，，又彻底释放了触觉在接触瞬间的迅速反映能力。。。。。

数据层面同样下足了功夫。。。。。团队构建了一个100小时的触觉同步数据集，，，，，，涵盖200多种日常物品、22种行动基元（抓取、挤压、插入、擦拭、折叠等）、7700多条运动轨迹。。。。。与古板做法差别，，，，，，这个数据集不是针对某个特定使命录制的，，，，，，而是围绕“行动×物体”的组合来组织——22个行动搭配200多种物品，，，，，，通过排列组合笼罩尽可能多样的接触场景。。。。。这让模子学到的是通用的触觉-行动对应关系，，，，，，而非死记硬背特定使命的模板。。。。。

训练战略同样极具条理感。。。。。团队先用22,889小时的人类第一视角视频举行大规模预训练，，，，，，让模子明确人类的手部交互模式；；；；再用上述100小时的机械人触觉数据举行跨模态对齐；；；；最后仅需少量特定使命树模即可完成专项能力的激活。。。。。这种渐进式训练的利益是，，，，，，触觉能力不需要重新学起，，，，，，而是在视觉运动先验已经建设之后，，，，，，以相对少的数据“嫁接”进来。。。。。

12项“刁难级”使命，，，，，，30个百分点的跨越

这套架构究竟有没有用？？？？？？论文在12项专门为“刁难”机械人而设计的细腻操作使命上举行了严苛测试——翻书页、转移生鸡蛋、擦盘子、挤牙膏、分纸杯、分拣麻将、开锁、填药盒、模拟化学滴定、抽卡片、发扑克牌、拧灯胆。。。。。每一项都要求机械人对接触力举行动态的、即时的调理。。。。。

T-Rex 完成翻书等接触麋集型使命（图片泉源：T-Rex）

最终效果令人振奋：T-Rex相较此前最强的基线模子，，，，，，在这12项使命上取得了凌驾30%的平均乐成率提升。。。。。在翻书页、分纸杯等对力度极为敏感的使命中，，，，，，T-Rex的体现从“险些不可用”跃升到了“起源具备适用价值”。。。。。

进一步的消融实验反向印证了设计的精妙：一旦切除所有触觉输入通道，，，，，，系统乐成率泛起断崖式下跌；；；；而若是强行作废异步运行机制，，，，，，让触觉被迫降频与视觉同步，，，，，，性能同样会显著劣化。。。。。这恰恰说明，，，，，，T-Rex的乐成并非纯粹来自“加了触觉”，，，，，，而是来自“用对了触觉”——给它自力的节奏、自力的通道、自力的处理逻辑。。。。。

T-Rex这篇论文的价值，，，，，，远不止于一组漂亮的实验数据。。。。。它用一个极具说服力的反例，，，，，，向整个具身智能行业发出了一个明确的警示信号：

“万物皆token、一切进大模子”的通用范式，，，，，，并不自然适用于所有感知模态。。。。。

视觉和语言是“慢变量”，，，，，，适合放在统一个重大的Transformer里做全局关联推理；；；；但触觉是“快变量”，，，，，，它关乎物理接触和即时反馈，，，，，，需要单独的高频闭环控制回路。。。。。强行把两者塞进统一个模子，，，，，，效果不是融合，，，，，，而是污染。。。。。

这让人遐想到神经科学中经典的双流假说——视觉腹侧通路认真“识别是什么”，，，，，，背侧通路认真“指导怎么做”。。。。。T-Rex的混淆专家架构，，，，，，某种水平上是在机械人身上复刻了这种生物演化的高级智慧。。。。。

虽然，，，，，，论文也坦诚了目今的局限性：关于需要数秒级连贯协调的重大操作，，，，，，纯粹的行为克隆仍受限于树模数据的笼罩度；；；；目今触觉感知仅限于指尖而非全手掌，，，，，，且传感器标定与漂移问题仍是工程痛点。。。。。但这些属于“生长中的懊恼”，，，，，，并不故障T-Rex所确立的范式意义。。。。。

这篇论文转达的焦点信息已经无比清晰：别再让机械人光靠“瞪大眼睛看”来干活了，，，，，，是时间让它们学会“伸脱手去摸”。。。。。触觉不应是视觉的附庸，，，，，，而应是一条自力的、与视觉平起平坐的物理感知通道。。。。。

谁人“17%跌到6%”的反常实验，，，，，，或许正是机械人从“望见天下”走向“感知天下”的要害转折点。。。。。（本文首发钛媒体APP，，，，，，作者 | 硅谷Tech-news，，，，，，编辑 | 赵虹宇）

首先，，，，，，在妄想结构上增强协同。。。。。西部地区，，，，，，统筹国家算力枢纽结构与大型新能源基地妄想建设，，，，，，推进算力设施与电力系统协同建设。。。。。东部地区，，，，，，推动漫衍式算力与漫衍式电源、微电网、虚拟电厂协同妄想，，，，，，就近响应算力需求。。。。。

责任编辑：张俊吉校对：金淳恩

今日热门

相关推荐

【网站地图】