一个GPT Plus会员的钱,,,,够机械人跑一个月天下模子了
henry 发自 凹非寺量子位 | 公众号 QbitAI
真没想到啊。。。。。∥锢鞟I的账单,,,,有一天竟然能和大模子一个价。。。。。。
事实,,,,视频跟文本孰大孰小,,,,我照旧分得清的。。。。。。
不过,,,,就在刚刚,,,,具身天下模子的安排本钱,,,,被智在无界打下来了——
在机械人身上安排天下模子,,,,一个月只要150块,,,,相当于充个GPT Plus会员的钱。。。。。。
而这,,,,就来自他们最新宣布的隐式天下模子产品Being-H-Flash
在单台机械人天天扫码1000件快递的流水线场景中,,,,Being-H-Flash月算力本钱仅需150元
相当于英伟达Cosmos方案的2%,,,,甚至比VLA架构的Pi0.5还自制70%。。。。。。
更要害的是,,,,它不但是自制。。。。。。
当其他显式天下模子还主要依赖云端安排时,,,,Being-H-Flash已经直接跑进了机械人本体。。。。。。
在类似Orin NX这样的百TOPS级端侧算力条件下,,,,Being-H-Flash能实现靠近20FPS实时运行,,,,并且同时兼容国产AI芯片和英伟达平台安排。。。。。。
(注:差别天下模子在训练级显卡、消耗级显卡与端侧芯片上的推理速率比照,,,,单位FPS,,,,越大越好,,,,x体现由于算力受限)
智在无界先容,,,,Being-H-Flash也是全球首个在端侧,,,,甚至是百TOPS级芯片上实现实时运行的天下模子。。。。。。
这是怎么做到的 ?????
天下模子端侧开跑
要明确Being-H-Flash为什么能在100TOPS端侧芯片上实时运行,,,,得先回到开头浅浅提到的两个看法:
显式天下模子隐式天下模子
已往一年,,,,以VLA(Vision-Language-Action)为代表的具身模子一直刷新机械人的操作能力上限。。。。。。
但与此同时,,,,一个问题也越来越难以回避:在动态的真实天下里,,,,纯粹地看加入景、输出行动,,,,往往并不敷。。。。。。
一旦涉及物体运动、遮挡、接触以及形变,,,,机械人就必需思量行动带来的后续影响。。。。。。否则,,,,一个看似准确的行动,,,,可能从执行最先就已经注定失败。。。。。。
因此,,,,机械人不但需要知道下一步该怎么做,,,,还需要预判这样做之后会爆发什么。。。。。。
于是,,,,能妄想未来的天下模子最先成为具身新的演进偏向,,,,但天下模子内部,,,,也有两条差别蹊径。。。。。。
详细来说,,,,一边是以英伟达Cosmos-Policy为代表的显式天下模子,,,,它会先逐帧天生未来画面,,,,再凭证这些画面妄想行动。。。。。。
这样做的利益是能够直接建模未来的物理转变,,,,但价钱也很显着:未来画面需要逐帧天生,,,,算力和延迟本钱都很高。。。。。。
而Being-H0.7所接纳的隐式天下模子,,,,则选择了另一条蹊径。。。。。。
它不再天生未来画面,,,,而是在多模态感知与行动天生之间构建一个潜空间(Latent Space),,,,把目今视察、使命目的以及对未来状态的判断压缩到其中举行推演。。。。。。
换句话说,,,,它依然在展望未来,,,,只是不再通过“画出来”的方式。。。。。。
(注:有别于英伟达的显式蹊径,,,,Being-H0.7首次开创了“人类视频预训练”+“潜空间推理”相连系的隐式天下模子蹊径)
这种做法最大的利益,,,,就是把“展望未来”从像素空间搬到了潜空间。。。。。。
大宗视频天生带来的盘算开销被省掉了,,,,但天下模子对未来状态的推演能力依然得以保存。。。。。。
蹊径更轻,,,,是Being-H-Flash能够跑进端侧的第一步。。。。。。
但不画未来,,,,并不料味着无法精准展望未来状态。。。。。。
为了确保模子在潜空间的推演能力,,,,团队还使用了凌驾20万小时第一人称人类视频和凌驾1.5万小时机械人示教数据举行训练。。。。。。
与此同时,,,,团队还构建了一整套面向端侧安排的推理基础设施,,,,包括自研Universal Async Chunking(UAC)等异步推理手艺。。。。。。
模子认真在潜空间里展望未来,,,,系统则认真让这些展望更快地转化成行动。。。。。。
前者阻止了像素级rollout带来的重大盘算开销,,,,后者进一步压缩了控制延迟。。。。。。
最终,,,,Being-H-Flash成为全球首个在百TOPS级端侧芯片上实现实时运行的天下模子。。。。。。
端侧跑通了,,,,然后呢?????
看到这里,,,,一个问题自然来了:天下模子跑进端侧,,,,然后呢?????
两件事。。。。。。第一,,,,它决议机械人究竟能不可用。。。。。。第二,,,,它决议这笔账究竟能不可算过来。。。。。。
先说第一件。。。。。。
举个栗子,,,,你跟DeepSeek对话,,,,模子多思索几秒,,,,鲸鱼脑壳上转几圈,,,,然后给你一个谜底,,,,大大都时间问题不大。。。。。。
但机械人纷歧样。。。。。。
一台产线上的机械人晚两秒做判断,,,,螺丝可能已经拧穿了电路板;;;;;;仓储机械人晚两秒避障,,,,货物可能已经撞翻在地。。。。。。
以是,,,,天下模子若是挂在云端跑,,,,网络延迟和断连风险就成了控制系统里最懦弱的一环。。。。。。
更别提许多工厂情形自己网络条件有限,,,,断网和颤抖并不有数。。。。。。
因此,,,,端侧实时运行,,,,实现闭环控制的主要性就在于此。。。。。。
好比,,,,接住一颗高速滑落的小球,,,,看起来只是接个球,,,,但真正难的着实不是行动,,,,而是展望。。。。。。
机械人需要一连判断小球下一秒会泛起在那里,,,,并实时调解机械臂轨迹完成接取。。。。。。
类似的挑战还泛起在液体和柔性物体上。。。。。。
倒水时液体会怎么流,,,,抓起塑料袋后会往哪边变形,,,,看似是差别使命,,,,背后磨练的着实是统一种能力:对未来状态的实时展望。。。。。。
这些使命虽然看起来差别,,,,但背后着实依赖的是统一种能力:在行动爆发之前,,,,先对未来举行推演。。。。。。
而当这种能力第一次能够在机械人本体实时运行之后,,,,天下模子也最先从实验室里的Demo,,,,酿成产线上的现实能力。。。。。。
已往,,,,天下模子在云端,,,,机械人在产线,,,,中距离着一根网线。。。。。。
现在,,,,天下模子第一次真正装进了机械人身体里。。。。。。
这或许才是Being-H-Flash更主要的意义。。。。。。
接下来,,,,就是第二件事,,,,天下模子能不可大规模落地。。。。。。
天下模子终于算得过账了
Being-H-Flash做到了一件此宿天下模子很难做到的事:
保存对物理天下的展望能力,,,,同时把安排本钱压到了工业能够接受的位置。。。。。。
很长一段时间里,,,,天下模子面临的都是统一个问题:能力越强,,,,本钱越高。。。。。。
而本钱越高,,,,距离真实安排就越远,,,,以Cosmos-Policy为代表的显式天下模子就是云云。。。。。。
它们能够建模重大的物理历程,,,,但高昂的推理开销决议了大大都情形下只能安排在云端数据中心。。。。。。
关于许多真实场景来说,,,,仅仅算力账这一项,,,,就已经很难建设。。。。。。
相较之下,,,,Being-H-Flash选择了一条差别的路。。。。。。
它没有把天下模子酿成更大的视频天生器,,,,而是通过隐空间推理,,,,把对未来的展望能力保存下来,,,,同时把实时运行所需算力压缩到百TOPS级端侧平台。。。。。。
关于机械人厂商来说,,,,这意味着不必再在模子能力和安排本钱之间做二选一。。。。。。
除此之外,,,,围绕差别安排需求,,,,智在无界还推出了完整的Being-H-Flash产品矩阵。。。。。。
其中,,,,Being-H-aura面向标准安排场景,,,,Being-H-ventus进一步强化运行效率,,,,而旗舰版Being-H-procella则针对详细机械人本体、硬件平台和营业场景举行专项优化。。。。。。
(注:Being-H-Flash产品矩阵,,,,以隐式天下模子为基座,,,,从aura,,,,ventus到procella,,,,逐级推进真实场景机械人的安排效率和性能)
就像开头说的,,,,Being-H-procella已经完成英伟达与国产芯片双平台适配,,,,并在国产百TOPS级端侧平台实现适用化安排。。。。。。
这意味着,,,,“国产天下模子+国产芯片”第一次从工业愿景走向工程现实。。。。。。
当端侧算力门槛降到百TOPS,,,,当月度算力本钱降到百元级,,,,许多已往算不过账的场景,,,,也最先有了规模唬唬唬;;涞氐目赡堋。。。。。
仓储物流里高速转变的包裹,,,,工业产线上一直调解的机械臂,,,,以及商超和家庭情形中的柔性物体与一连操作使命,,,,都最先进入天下模子的能力半径。。。。。。
从Being-H0到Being-H0.7再到Being-H-Flash,,,,智在无界用一年时间完成了隐式天下模子从提出到端侧安排的闭环。。。。。。
而这或许也展现了天下模子商业化真正主要的一件事——
决议它能否走出实验室的,,,,历来不但是能力上限。。。。。。
更主要的,,,,是谁能先把它装进机械人、放进产线,,,,再把本钱打到工业愿意买单的位置。。。。。。
至少从今天来看,,,,天下模子终于最先算得过这笔账了。。。。。。
One More Thing
最厥后简朴先容一下,,,, Being-H-Flash背后的团队——
BeingBeyond(智在无界)
智在无界建设于2025年5月,,,,是一支刚满一岁的团队。。。。。。
首创人卢宗青,,,,是北京大学盘算机学院长聘副教授、智源学者,,,,恒久深耕强化学习。。。。。。
在学术界,,,,他较早提出使用大规模人类视频训练具身模子的偏向,,,,这也成为了智在无界厥后手艺蹊径的起点。。。。。。
公司焦点手艺开发职员占比凌驾70%,,,,博士学历占比近60%,,,,主要来自北京大学、清华大学、中国人民大学、南洋理工大学、南加州大学等海内外着名高等院校。。。。。。
已往一年,,,,智在无界险些坚持着3-4个月一代模子的迭代速率。。。。。。
从Being-H0的1000小时人类视频预训练,,,,到H0.5扩展至1万小时,,,,再到H0.7将训练规模提升至20万小时,,,,这条手艺路径始终围绕着统一个问题:
怎样让机械人像人一样,,,,通过视察天下来明确天下。。。。。。
现在天宣布的Being-H-Flash,,,,则把这套能力第一次带进了百TOPS级端侧芯片。。。。。。
从人类视频预训练,,,,到隐式天下模子,,,,再到端侧实时安排。。。。。。
一年,,,,四代模子,,,,很具身。。。。。。
@李美治:hayaxurax18电视,,,,学者:天下Ⅱ卷作文命题专家特殊善良@陈俊茂:刘萧旭让山东人的DNA动了
@林辛慈:雷军:造车是十年之功
热门排行
- 1 国产群
- 2 麻豆激情
- 3 一曲二曲三曲免费播放
- 4 欧美大屁股XXX
- 5 免费午夜福利视频
- 6 床上拍拍拍
- 7 WWWXXX动漫
- 8 yw视频
- 9 能直接看的AV网站