凯时AG

环球热门新闻资讯
2026-06-17 07:08:49
首页 > 新闻 > 时政要闻 > 正文

一个GPT Plus会员的钱 ,,,,,够机械人跑一个月天下模子了

henry 发自 凹非寺量子位 | 公众号 QbitAI

真没想到 。。。。。。∥锢鞟I的账单 ,,,,,有一天竟然能和大模子一个价 。。。。。。

事实 ,,,,,视频跟文本孰大孰小 ,,,,,我照旧分得清的 。。。。。。

不过 ,,,,,就在刚刚 ,,,,,具身天下模子的安排本钱 ,,,,,被智在无界打下来了——

在机械人身上安排天下模子 ,,,,,一个月只要150块 ,,,,,相当于充个GPT Plus会员的钱 。。。。。。

而这 ,,,,,就来自他们最新宣布的隐式天下模子产品Being-H-Flash

在单台机械人天天扫码1000件快递的流水线场景中 ,,,,,Being-H-Flash月算力本钱仅需150元

相当于英伟达Cosmos方案的2% ,,,,,甚至比VLA架构的Pi0.5还自制70% 。。。。。。

更要害的是 ,,,,,它不但是自制 。。。。。。

当其他显式天下模子还主要依赖云端安排时 ,,,,,Being-H-Flash已经直接跑进了机械人本体 。。。。。。

在类似Orin NX这样的百TOPS级端侧算力条件下 ,,,,,Being-H-Flash能实现靠近20FPS实时运行 ,,,,,并且同时兼容国产AI芯片和英伟达平台安排 。。。。。。

(注:差别天下模子在训练级显卡、消耗级显卡与端侧芯片上的推理速率比照 ,,,,,单位FPS ,,,,,越大越好 ,,,,,x体现由于算力受限)

智在无界先容 ,,,,,Being-H-Flash也是全球首个在端侧 ,,,,,甚至是百TOPS级芯片上实现实时运行的天下模子 。。。。。。

这是怎么做到的 ? ??

天下模子端侧开跑

要明确Being-H-Flash为什么能在100TOPS端侧芯片上实时运行 ,,,,,得先回到开头浅浅提到的两个看法:

显式天下模子隐式天下模子

已往一年 ,,,,,以VLA(Vision-Language-Action)为代表的具身模子一直刷新机械人的操作能力上限 。。。。。。

但与此同时 ,,,,,一个问题也越来越难以回避:在动态的真实天下里 ,,,,,纯粹地看加入景、输出行动 ,,,,,往往并不敷 。。。。。。

一旦涉及物体运动、遮挡、接触以及形变 ,,,,,机械人就必需思量行动带来的后续影响 。。。。。。否则 ,,,,,一个看似准确的行动 ,,,,,可能从执行最先就已经注定失败 。。。。。。

因此 ,,,,,机械人不但需要知道下一步该怎么做 ,,,,,还需要预判这样做之后会爆发什么 。。。。。。

于是 ,,,,,能妄想未来的天下模子最先成为具身新的演进偏向 ,,,,,但天下模子内部 ,,,,,也有两条差别蹊径 。。。。。。

详细来说 ,,,,,一边是以英伟达Cosmos-Policy为代表的显式天下模子 ,,,,,它会先逐帧天生未来画面 ,,,,,再凭证这些画面妄想行动 。。。。。。

这样做的利益是能够直接建模未来的物理转变 ,,,,,但价钱也很显着:未来画面需要逐帧天生 ,,,,,算力和延迟本钱都很高 。。。。。。

而Being-H0.7所接纳的隐式天下模子 ,,,,,则选择了另一条蹊径 。。。。。。

它不再天生未来画面 ,,,,,而是在多模态感知与行动天生之间构建一个潜空间(Latent Space) ,,,,,把目今视察、使命目的以及对未来状态的判断压缩到其中举行推演 。。。。。。

换句话说 ,,,,,它依然在展望未来 ,,,,,只是不再通过“画出来”的方式 。。。。。。

(注:有别于英伟达的显式蹊径 ,,,,,Being-H0.7首次开创了“人类视频预训练”+“潜空间推理”相连系的隐式天下模子蹊径)

这种做法最大的利益 ,,,,,就是把“展望未来”从像素空间搬到了潜空间 。。。。。。

大宗视频天生带来的盘算开销被省掉了 ,,,,,但天下模子对未来状态的推演能力依然得以保存 。。。。。。

蹊径更轻 ,,,,,是Being-H-Flash能够跑进端侧的第一步 。。。。。。

但不画未来 ,,,,,并不料味着无法精准展望未来状态 。。。。。。

为了确保模子在潜空间的推演能力 ,,,,,团队还使用了凌驾20万小时第一人称人类视频和凌驾1.5万小时机械人示教数据举行训练 。。。。。。

与此同时 ,,,,,团队还构建了一整套面向端侧安排的推理基础设施 ,,,,,包括自研Universal Async Chunking(UAC)等异步推理手艺 。。。。。。

模子认真在潜空间里展望未来 ,,,,,系统则认真让这些展望更快地转化成行动 。。。。。。

前者阻止了像素级rollout带来的重大盘算开销 ,,,,,后者进一步压缩了控制延迟 。。。。。。

最终 ,,,,,Being-H-Flash成为全球首个在百TOPS级端侧芯片上实现实时运行的天下模子 。。。。。。

端侧跑通了 ,,,,,然后呢? ??

看到这里 ,,,,,一个问题自然来了:天下模子跑进端侧 ,,,,,然后呢? ??

两件事 。。。。。。第一 ,,,,,它决议机械人究竟能不可用 。。。。。。第二 ,,,,,它决议这笔账究竟能不可算过来 。。。。。。

先说第一件 。。。。。。

举个栗子 ,,,,,你跟DeepSeek对话 ,,,,,模子多思索几秒 ,,,,,鲸鱼脑壳上转几圈 ,,,,,然后给你一个谜底 ,,,,,大大都时间问题不大 。。。。。。

但机械人纷歧样 。。。。。。

一台产线上的机械人晚两秒做判断 ,,,,,螺丝可能已经拧穿了电路板;;;;;;仓储机械人晚两秒避障 ,,,,,货物可能已经撞翻在地 。。。。。。

以是 ,,,,,天下模子若是挂在云端跑 ,,,,,网络延迟和断连风险就成了控制系统里最懦弱的一环 。。。。。。

更别提许多工厂情形自己网络条件有限 ,,,,,断网和颤抖并不有数 。。。。。。

因此 ,,,,,端侧实时运行 ,,,,,实现闭环控制的主要性就在于此 。。。。。。

好比 ,,,,,接住一颗高速滑落的小球 ,,,,,看起来只是接个球 ,,,,,但真正难的着实不是行动 ,,,,,而是展望 。。。。。。

机械人需要一连判断小球下一秒会泛起在那里 ,,,,,并实时调解机械臂轨迹完成接取 。。。。。。

类似的挑战还泛起在液体和柔性物体上 。。。。。。

倒水时液体会怎么流 ,,,,,抓起塑料袋后会往哪边变形 ,,,,,看似是差别使命 ,,,,,背后磨练的着实是统一种能力:对未来状态的实时展望 。。。。。。

这些使命虽然看起来差别 ,,,,,但背后着实依赖的是统一种能力:在行动爆发之前 ,,,,,先对未来举行推演 。。。。。。

而当这种能力第一次能够在机械人本体实时运行之后 ,,,,,天下模子也最先从实验室里的Demo ,,,,,酿成产线上的现实能力 。。。。。。

已往 ,,,,,天下模子在云端 ,,,,,机械人在产线 ,,,,,中距离着一根网线 。。。。。。

现在 ,,,,,天下模子第一次真正装进了机械人身体里 。。。。。。

这或许才是Being-H-Flash更主要的意义 。。。。。。

接下来 ,,,,,就是第二件事 ,,,,,天下模子能不可大规模落地 。。。。。。

天下模子终于算得过账了

Being-H-Flash做到了一件此宿天下模子很难做到的事:

保存对物理天下的展望能力 ,,,,,同时把安排本钱压到了工业能够接受的位置 。。。。。。

很长一段时间里 ,,,,,天下模子面临的都是统一个问题:能力越强 ,,,,,本钱越高 。。。。。。

而本钱越高 ,,,,,距离真实安排就越远 ,,,,,以Cosmos-Policy为代表的显式天下模子就是云云 。。。。。。

它们能够建模重大的物理历程 ,,,,,但高昂的推理开销决议了大大都情形下只能安排在云端数据中心 。。。。。。

关于许多真实场景来说 ,,,,,仅仅算力账这一项 ,,,,,就已经很难建设 。。。。。。

相较之下 ,,,,,Being-H-Flash选择了一条差别的路 。。。。。。

它没有把天下模子酿成更大的视频天生器 ,,,,,而是通过隐空间推理 ,,,,,把对未来的展望能力保存下来 ,,,,,同时把实时运行所需算力压缩到百TOPS级端侧平台 。。。。。。

关于机械人厂商来说 ,,,,,这意味着不必再在模子能力和安排本钱之间做二选一 。。。。。。

除此之外 ,,,,,围绕差别安排需求 ,,,,,智在无界还推出了完整的Being-H-Flash产品矩阵 。。。。。。

其中 ,,,,,Being-H-aura面向标准安排场景 ,,,,,Being-H-ventus进一步强化运行效率 ,,,,,而旗舰版Being-H-procella则针对详细机械人本体、硬件平台和营业场景举行专项优化 。。。。。。

(注:Being-H-Flash产品矩阵 ,,,,,以隐式天下模子为基座 ,,,,,从aura ,,,,,ventus到procella ,,,,,逐级推进真实场景机械人的安排效率和性能)

就像开头说的 ,,,,,Being-H-procella已经完成英伟达与国产芯片双平台适配 ,,,,,并在国产百TOPS级端侧平台实现适用化安排 。。。。。。

这意味着 ,,,,,“国产天下模子+国产芯片”第一次从工业愿景走向工程现实 。。。。。。

当端侧算力门槛降到百TOPS ,,,,,当月度算力本钱降到百元级 ,,,,,许多已往算不过账的场景 ,,,,,也最先有了规;;;;;;涞氐目赡 。。。。。。

仓储物流里高速转变的包裹 ,,,,,工业产线上一直调解的机械臂 ,,,,,以及商超和家庭情形中的柔性物体与一连操作使命 ,,,,,都最先进入天下模子的能力半径 。。。。。。

从Being-H0到Being-H0.7再到Being-H-Flash ,,,,,智在无界用一年时间完成了隐式天下模子从提出到端侧安排的闭环 。。。。。。

而这或许也展现了天下模子商业化真正主要的一件事——

决议它能否走出实验室的 ,,,,,历来不但是能力上限 。。。。。。

更主要的 ,,,,,是谁能先把它装进机械人、放进产线 ,,,,,再把本钱打到工业愿意买单的位置 。。。。。。

至少从今天来看 ,,,,,天下模子终于最先算得过这笔账了 。。。。。。

One More Thing

最厥后简朴先容一下 ,,,,, Being-H-Flash背后的团队——

BeingBeyond(智在无界)

智在无界建设于2025年5月 ,,,,,是一支刚满一岁的团队 。。。。。。

首创人卢宗青 ,,,,,是北京大学盘算机学院长聘副教授、智源学者 ,,,,,恒久深耕强化学习 。。。。。。

在学术界 ,,,,,他较早提出使用大规模人类视频训练具身模子的偏向 ,,,,,这也成为了智在无界厥后手艺蹊径的起点 。。。。。。

公司焦点手艺开发职员占比凌驾70% ,,,,,博士学历占比近60% ,,,,,主要来自北京大学、清华大学、中国人民大学、南洋理工大学、南加州大学等海内外着名高等院校 。。。。。。

已往一年 ,,,,,智在无界险些坚持着3-4个月一代模子的迭代速率 。。。。。。

从Being-H0的1000小时人类视频预训练 ,,,,,到H0.5扩展至1万小时 ,,,,,再到H0.7将训练规模提升至20万小时 ,,,,,这条手艺路径始终围绕着统一个问题:

怎样让机械人像人一样 ,,,,,通过视察天下来明确天下 。。。。。。

现在天宣布的Being-H-Flash ,,,,,则把这套能力第一次带进了百TOPS级端侧芯片 。。。。。。

从人类视频预训练 ,,,,,到隐式天下模子 ,,,,,再到端侧实时安排 。。。。。。

一年 ,,,,,四代模子 ,,,,,很具身 。。。。。。

据新闻人士称 ,,,,,这些步队以阿塞拜疆南部的数个所在为据点睁开行动 ,,,,,这些所在紧邻伊朗北部领土 ,,,,,其中一处据点距离伊朗都会大不里士仅约60英里 ,,,,,而大不里士是以色列在战事时代攻击过的目的之一 。。。。。。新闻人士还体现 ,,,,,以色列还向这些所在安排了特种突击队 ,,,,,执行情报网络和无人机行动使命 。。。。。。

责任编辑:杨立以

【网站地图】