凯时AG

2026-07-06 04:36:11 设为首页 | 加入珍藏

李飞飞、Jim Fan、徐丹飞联手,,,,给具身智能指了一条新路

2026-07-06 04:36:11 宣布 泉源:征信中心 作者:刘郁紫 浏览:5524次

2026年炎天,,,,机械人圈被一个近乎“玄色诙谐”的实验效果炸开了锅。。。

一支由斯坦福教授李飞飞、英伟达具身智能认真人Jim Fan、佐治亚理工学院助理教授徐丹飞领衔,,,,联合Pieter Abbeel、Jitendra Malik、Ken Goldberg、Trevor Darrell等多位顶尖学者的“超等团队”,,,,在一项消融比照实验中遇到了一个百思不得其解的征象。。。

他们在一个名为π0.5的行业经典模子上做了一件看似理所虽然的事——把触觉信号作为特殊信息输入给模子。。。按常理,,,,多一种感知应该多一分精准。。。效果却令人瞠目:据论文中的消融实验显示,,,,使命乐成率从17%骤降至6%。。。

加了触觉,,,,机械人反而“不会干活”了。。。

这个反常效果,,,,像一记耳光打在了整个具身智能行业的脸上。。。已往几年,,,,业界的主流做法是把一切感知信息——视觉、语言、触觉——一切转成统一种名堂塞进统一个大模子里,,,,相信“数据多了自然智能涌现”。。。T-Rex论文用一组酷寒的数据证实:这条路,,,,可能从一最先就走偏了。。。

触觉为什么成了“猪队友”???

问题出在那里???论文作者们给出了一个精练而有力的诊断:频率错配。。。

据论文及相关手艺解读,,,,视觉是一种“慢感知”。。。摄像头以约莫每秒5帧的频率扫描天下,,,,提供的是稳固的场景语义——知道物体在那里、长什么样。。。但触觉是一种“快感知”。。。当指尖接触到物体的瞬间,,,,压力、滑动、形变等信息以毫秒为单位转变,,,,触觉反馈自然需要在每秒20次甚至更高的频率下才华施展作用。。。

打个例如:这就像让一个长跑运发动(视觉)和一个短跑运发动(触觉)在统一条跑道上以同样的速率跑步。。。长跑运发动以为节奏太快跟不上,,,,短跑运发动以为节奏太慢憋得慌。。。把这两种时间标准完全差别的信号强行塞进统一个以低频运行的Transformer里,,,,效果不是“1+1=2”,,,,而是“1+1<1”——触觉的高频优势施展不出来,,,,反而把视觉已经学好的表征搅得一团糟。。。

换句话说,,,,不是触觉没用,,,,是用错了地方。。。

面临这个结构性矛盾,,,,研究团队没有在原有框架上修修补补,,,,而是选择推倒重来。。。

他们提出了一套名为T-Rex的全新框架。。。T-Rex既是“触觉反映式灵巧操作”(Tactile-Reactive Dexterous Manipulation)的缩写,,,,也暗合“霸王龙”之意——虽然霸王龙的前肢短小,,,,但这篇论文要解决的,,,,正是一双灵巧手怎样真正“感知”天下。。。

T-Rex的焦点思绪可以概括为一句话:别再让触觉和视觉抢统一条算力通道了,,,,给它单独开发一条自力的高速公路。。。

详细怎么实现???论文提出了一套混淆Transformer专家架构(Mixture-of-Transformers,,,,MoT) 。。。所谓“混淆”,,,,是把机械人的控制权拆解给三位各司其职的专家;; ;;;;所谓“变速率”,,,,是让三位专家各跑各的时钟频率,,,,互不滋扰。。。MoT中的“M”恰恰同时代表了这两层寄义。。。

第一位专家认真“看路”和“预判”——它叫潜在专家。。。 它的使命是处理视觉和语言信息,,,,展望“接下来场景会酿成什么样”,,,,为后续行动提供时间上的上下文。。。说白了,,,,它在提前想好下一步会爆发什么。。。

第二位专家认真“画草图”——它叫行动专家。。。 它从一片“噪声”最先,,,,通过一步步去噪,,,,天生一个大致的行动走向——“手往这个偏向移动”。。。这个???榈脑诵衅德试寄敲棵5次,,,,对应视觉感知的自然节奏。。。

第三位专家认真“微调”——它叫触觉专家。。。 它不加入前期的全局妄想,,,,只在接触爆发的瞬间启动,,,,以每秒20次以上的高频实时读取指尖传来的力和形变信号,,,,在行动专家画好的“草图”上做毫秒级的细腻修正——“力道轻一点”“往左偏一毫米”。。。

三个专家的协同流程是这样的:行动专家先跑完前几步,,,,画出一张行动草图;; ;;;;触觉专家从某其中心节点接手,,,,使用最新的触觉数据完成剩余方法的精化。。。行动专家认真“低频去噪”,,,,触觉专家认真“高频精化” 。。。潜在专家全程“看路”,,,,为两者提供视觉上下文。。。三位专家各跑各的时钟,,,,各司其职,,,,最后协同输出完整的行动。。。

T-Rex 的 Mixture-of-Transformer-Experts(MoT)架构。。。(图片泉源:T-Rex)

为了让触觉专家真正“读懂”触觉信号,,,,论文还专门设计了一套时空触觉编码器。。。焦点是一个VQ-VAE???椤憧梢园阉魅肺桓觥胺牍佟,,,,把已往十几帧的时序力数据压缩成离散的“触觉词汇”,,,,既能捕获力的转变趋势,,,,又能反抗传感器的信号漂移。。。这样一来,,,,触觉专家吸收到的就是一套标准化的“触觉语言”,,,,而非杂乱无章的原始信号。。。

这套设计的实质,,,,就是给高频触觉信号辟出一条自力的通道,,,,不让它被低频的视觉节奏拖累。。。 三个专家各跑各的频率,,,,各管各的事,,,,互不滋扰,,,,最后再协同输出一个完整的行动——既保存了视觉对全局的把控,,,,又彻底释放了触觉在接触瞬间的迅速反映能力。。。

数据层面同样下足了功夫。。。团队构建了一个100小时的触觉同步数据集,,,,涵盖200多种日常物品、22种行动基元(抓取、挤压、插入、擦拭、折叠等)、7700多条运动轨迹。。。与古板做法差别,,,,这个数据集不是针对某个特定使命录制的,,,,而是围绕“行动×物体”的组合来组织——22个行动搭配200多种物品,,,,通过排列组合笼罩尽可能多样的接触场景。。。这让模子学到的是通用的触觉-行动对应关系,,,,而非死记硬背特定使命的模板。。。

训练战略同样极具条理感。。。团队先用22,889小时的人类第一视角视频举行大规模预训练,,,,让模子明确人类的手部交互模式;; ;;;;再用上述100小时的机械人触觉数据举行跨模态对齐;; ;;;;最后仅需少量特定使命树模即可完成专项能力的激活。。。这种渐进式训练的利益是,,,,触觉能力不需要重新学起,,,,而是在视觉运动先验已经建设之后,,,,以相对少的数据“嫁接”进来。。。

12项“刁难级”使命,,,,30个百分点的跨越

这套架构究竟有没有用???论文在12项专门为“刁难”机械人而设计的细腻操作使命上举行了严苛测试——翻书页、转移生鸡蛋、擦盘子、挤牙膏、分纸杯、分拣麻将、开锁、填药盒、模拟化学滴定、抽卡片、发扑克牌、拧灯胆。。。每一项都要求机械人对接触力举行动态的、即时的调理。。。

T-Rex 完成翻书等接触麋集型使命(图片泉源:T-Rex)

最终效果令人振奋:T-Rex相较此前最强的基线模子,,,,在这12项使命上取得了凌驾30%的平均乐成率提升。。。在翻书页、分纸杯等对力度极为敏感的使命中,,,,T-Rex的体现从“险些不可用”跃升到了“起源具备适用价值”。。。

进一步的消融实验反向印证了设计的精妙:一旦切除所有触觉输入通道,,,,系统乐成率泛起断崖式下跌;; ;;;;而若是强行作废异步运行机制,,,,让触觉被迫降频与视觉同步,,,,性能同样会显著劣化。。。这恰恰说明,,,,T-Rex的乐成并非纯粹来自“加了触觉”,,,,而是来自“用对了触觉”——给它自力的节奏、自力的通道、自力的处理逻辑。。。

T-Rex这篇论文的价值,,,,远不止于一组漂亮的实验数据。。。它用一个极具说服力的反例,,,,向整个具身智能行业发出了一个明确的警示信号:

“万物皆token、一切进大模子”的通用范式,,,,并不自然适用于所有感知模态。。。

视觉和语言是“慢变量”,,,,适合放在统一个重大的Transformer里做全局关联推理;; ;;;;但触觉是“快变量”,,,,它关乎物理接触和即时反馈,,,,需要单独的高频闭环控制回路。。。强行把两者塞进统一个模子,,,,效果不是融合,,,,而是污染。。。

这让人遐想到神经科学中经典的双流假说——视觉腹侧通路认真“识别是什么”,,,,背侧通路认真“指导怎么做”。。。T-Rex的混淆专家架构,,,,某种水平上是在机械人身上复刻了这种生物演化的高级智慧。。。

虽然,,,,论文也坦诚了目今的局限性:关于需要数秒级连贯协调的重大操作,,,,纯粹的行为克隆仍受限于树模数据的笼罩度;; ;;;;目今触觉感知仅限于指尖而非全手掌,,,,且传感器标定与漂移问题仍是工程痛点。。。但这些属于“生长中的懊恼”,,,,并不故障T-Rex所确立的范式意义。。。

这篇论文转达的焦点信息已经无比清晰:别再让机械人光靠“瞪大眼睛看”来干活了,,,,是时间让它们学会“伸脱手去摸”。。。 触觉不应是视觉的附庸,,,,而应是一条自力的、与视觉平起平坐的物理感知通道。。。

谁人“17%跌到6%”的反常实验,,,,或许正是机械人从“望见天下”走向“感知天下”的要害转折点。。。(本文首发钛媒体APP,,,,作者 | 硅谷Tech-news,,,,编辑 | 赵虹宇)

《预案》包括总则、组织机构、预判预警与值班安排、应急响应、包管步伐、培训演练、预案治理和附件8部分内容,,,,作为国家层面部分应急预案,,,,适用于自然资源部组织开展的我国统领海域规模内风暴潮(海水倒灌)、海浪、海冰和海啸灾难的视察、预警和灾难视察评估等事情。。。

责任编辑:袁富毓    校对:陈郁文

今日热门

  1. 致敬中国蓝盔!我国已派遣5万余人次加入联合国维和行动
  2. 主汛期至 山西怎样防汛备汛???
  3. 神舟二十三号载人飞船发射取得圆满乐成
  4. 山东栖霞:“00后”花饽饽手艺人“捏”出母亲节祝福
  5. 学习功勋模范,,,,擦亮精神标识
  6. 俄罗斯研学团走进东宁校园陶醉式体验中国端午民俗
  7. DeepSeek拟融资500亿!SpaceX冲刺上市
  8. 蒙古国总理乌其尔勒会见王毅
  9. 最长“太空出差”圆满收官
  10. 女子在旅馆泡汤时有无人机飞过

相关推荐

【网站地图】