英伟达把8个AI和8台机械人关在一起,,它们学会了自己做实验
若是未来的机械人实验室里没有人类研究员,,会爆发什么???
今天,,英伟达高级研究科学家、具身智能认真人 Jim Fan 宣布了一个名为 “ENPIRE ”的新项目。。。。。在这个实验室里,,8 个 AI coding agent 与 8 台机械人组成了一支“科研团队”:它们自己设计实验、自己修改代码、自己验证效果,,并一连优化机械人战略,,而人类研究员只认真设定目的和视察效果。。。。。
图|ENPIRE 机械人实验平台(泉源:NVIDIA)
8 个实验单位上,,各自配备了两条 6 自由度 YAM 机械臂、一台 Intel RealSense 深度摄像头,,以及一台搭载单块 NVIDIA RTX 5090 显卡(32GB 显存)的事情站。。。。。所有训练、推理和 agent 运行均在外地完成,,没有依赖共享盘算集群。。。。。
研究团队同时测试了 Codex、Claude Code 和 Kimi Code 三种 coding agent。。。。。在模拟情形中三者都能够完成使命,,但在真实机械人上的体现保存显着差别,,其中 Codex 整体体现最好,,抵达目的乐成率所需时间最短。。。。。
Jim Fan 将其称为“AutoResearch(自动科研)进入物理天下的一次实验”。。。。。他还在帖子中玩笑说,,希望以后团队能全员溜号去度假,,实验室全靠机械人和 AI 自己跑,,老板黄仁勋都发明不了。。。。。
玩笑归玩笑,,这句话也交接了 ENPIRE 的一个主要目的:让机械人在真真相形中的研发逐步实现自主循环。。。。。
这也是 NVIDIA GEAR(Generalist Embodied Agent Research)实验室近年来 Physical AI 蹊径的延伸。。。。。此前团队重点关注机械人基础模子、天下模子和仿真平台,,而 ENPIRE 则进一步将 attention 转向机械人研发流程。。。。。现在,,相关手艺论文已经同步上线,,官方体现所有代码和系统在未来都将开源。。。。。
(泉源:NVIDIA)
给 AI 一个机械人身体
在 ENPIRE 中,,焦点角色是AI coding agent,,即能够自主编写、执行和调试代码的 AI 系统。。。。。与古板谈天机械人差别,,它们能够自动挪用工具、运行程序,,并凭证反馈一连修改代码。。。。。
已往,,它们只能在屏幕里写代码、跑程序;;;;;;现在,,它们在 ENPIRE 中第一次拥有了真实天下中的机械臂、摄像头和实验工具。。。。。它们写下的代码,,不但是天生一个数字效果,,而是直接驱念头械人去抓取、插入、剪切和操作真实物体。。。。。
已往几年里,,自动化科研已经在数字天下取得了不少希望。。。。。去年 Andrej Karpathy 开源的 autoresearch 项目,,可以让 AI 自动完成模子训练和实验治理;;;;;;AI Scientist 等系统则已经能够自动天生研究方案、运行实验并撰写论文。。。。。
但这些系统有一个配合特点:它们始终运行在数字情形之中。。。。。代码运行完成绩会获得效果,,模拟器里的物理纪律是确定的,,一次失败可以零本钱重新最先。。。。。
真实天下则完全差别。。。。。;;;;;等伺鲎彩钡哪Σ亮岜⒆洌,物体位置无法被准确回复,,光照条件和传感器噪声也始终在波动。。。。。论文中提到,,在模拟情形中的“Push-T”(机械人通过推动而非抓取的方式,,将一个 T 形积木移动到指定区域)使命里,,三个被测试的 coding agent 所有乐成完成了使命;;;;;;但当同样的要领被安排到真实机械人上时,,其中两个 agent 都失败了。。。。。
以是,,为了应对真实天下的非确定性,,ENPIRE 整个系统被拆分为两个阶段。。。。。
第一阶段需要少量人类加入。。。。。coding agent 首先在人类指导下搭建一套“情形基础设施”,,包括清静界线、自动重置和自动验证机制。。。。。所谓清静界线,,就是划定机械人不可执行哪些危险行动;;;;;;自动重置认真在实验竣事后恢复场景;;;;;;自动验证则认真判断一次操作事实乐成照旧失败。。。。。这些???橐坏┩瓿桑,就不再修改,,而是作为后续所有实验共享的基础设施。。。。。
第二阶段则完全自主。。。。。;;;;;竦们樾谓涌谥螅,coding agent 最先真正意义上的“研究事情”。。。。。它们会阅读相关论文寻找灵感,,提出新的算法假设,,修改训练代码,,调解强化学习和行为克隆战略的超参数,,然后安排到真实机械人上验证效果,,再凭证实验效果继续刷新。。。。。
Jim Fan 用一句话概括了这个历程:“我们所做的只是为 Codex 提供了一个通往原子天下的 API,,其余的一切都是涌现。。。。。”
(泉源:论文)
AI 怎样在真实天下做实验
为了验证这一框架,,研究团队设计了多个真实机械人使命。。。。。一个是上文提到的 Push-T 使命,,团队要求机械人通过推的方式将一个 T 形积木移动到指定区域;;;;;;尚有一个是插针使命,,要求机械人把大头针准确插入直径仅 4 毫米的孔洞;;;;;;GPU 插入使命则是真正将 GPU 插进主板插槽;;;;;;而剪扎带使命则要求机械人拿起铰剪并剪断扎带尾部。。。。。
这些使命都涉及高精度操作,,其中不少还需要实时视觉反馈和重大接触控制。。。。。在团队宣布的演示视频中,,GPU 插入和剪扎带也是重点展示的内容:前者要求机械人将 GPU 准确插入主板插槽,,后者则涉及抓取铰剪并完成工具使用。。。。。
在插针使命中,,agent 的体现尤其值得关注。。。。。为了提高乐成率,,它们自主实验了行为克隆、在线强化学习、离线强化学习以及多种混淆方案,,并一直调解批量巨细、战略更新频率和正则化参数。。。。。最终,,系统实现了一连 50 次乐成插针的目的。。。。。
更有意思的是,,这支 agent 团队并不是简朴地举行参数搜索。。。。。团队的论文附录展示了一棵“假设演化树(Idea Tree)”,,纪录了 agent 在实验历程中提出、验证和放弃的种种刷新思绪。。。。。差别 agent 会围绕奖励设计、训练方式、超参数设置等偏向睁开探索,,再凭证实验效果决议哪些蹊径继续保存、哪些蹊径被镌汰。。。。。
其中,,仅调解行为克隆中的一个正则化项,,就带来了 10.8% 的乐成率提升,,成为整个实验历程中孝顺最大的单项改动。。。。。而最终的收敛速率也凌驾了此前依赖人类一连加入的机械人强化学习要领。。。。。
机械人数目成为新的 scaling 资源???
不过,,这些都还不是这个项目最引人关注的部分。。。。。
研究团队还发明,,当机械人和 coding agent 的数目增添时,,抵达同样性能目的所需的研发时间会显着缩短。。。。。为此,,他们搭建了由 1 台、4 台和 8 台机械人组成的差别规模实验系统。。。。。效果显示,,在插针使命中,,1 台机械人需要凌驾 1.5 小时才华抵达靠近完善的乐成率;;;;;;4 台机械人缩短到约 50 分钟;;;;;;8 台机械人则进一步缩短到约 40 分钟。。。。。
(泉源:论文)
多个 coding agent 会同时探索差别蹊径。。。。。有的实验新的强化学习算法,,有的修改奖励函数,,尚有的认真调解训练基础设施。。。。。一旦某个偏向被证实有用,,其他署剖析通过 Git 自动复制、合并甚至直接复用这些效果;;;;;;而效果不佳的蹊径则被快速镌汰。。。。。
从形式上看,,这有些像一个由 AI 组成的研究团队:多个 agent 并行开展实验,,并一连共享相互的发明。。。。。这或许也意味着机械人实验室最先泛起类似 AI 领域的“扩展效应(scaling effect)”。。。。。
已往,,大模子能力的提升往往来自更多 GPU、更大都据和更大的参数规模;;;;;;而在 ENPIRE 中,,研究团队最先实验回覆另一个问题:若是增添机械人数目和并行实验规模,,是否也能一连加速机械人的学习和研发历程。。。。。
但这种加速也有响应的价钱。。。。。论文显示,,随着署理数目增添,,总 token 消耗泛起超线性增添。。。。。原因在于,,每个署理不但要做自己的实验,,还需要一连阅读和明确其他署理的研究希望。。。。。;;;;;痪浠八担,系统用更高的盘算本钱换来了更短的研发时间。。。。。
另一个有趣的发明来自知识迁徙。。。。。
完成插针使命之后,,研究职员要求 agent 总结自己学到的履历,,并天生一份 Markdown 文档。。。。。当新的 GPU 插入使命最先时,,这份总结被直接附加到使命说明中。。。。。效果显示,,这些文字形式的履历总结能够资助 agent 更快掌握新使命。。。。。这说明,,在 autoresearch 的历程中被迁徙的不是模子参数,,也不是训练数据,,而是要领论。。。。。这与人类研究者纪录实验条记、总结履历再应用到新课题的方式颇为相似。。。。。
但现在来看,,ENPIRE 照旧保存一定的局限性。。。。。首先,,系统并非完全自主运行。。。。。研究职员仍需要提前搭建实验情形、界说清静界线、设计自动验证机制,,并为差别使命开发对应的重置流程。。。。。agent 能够自主刷新战略,,但实验平台仍然依赖大宗前期工程投入。。。。。
其次,,ENPIRE 现在验证的使命规模仍然相对有限,,无论是 Push-T、插针照旧 GPU 插入,,实质上都属于结构化水平较高的桌面操作使命。。。。。系统能否扩展到更开放、更重大的真真相形,,仍有待进一步验证。。。。。
1.https://x.com/DrJimFan/status/2066921736369766762
2.https://research.nvidia.com/labs/gear/enpire/
运营/排版:何晨龙
注:封面/首图由 AI 辅助天生
文章点评
未盘问到任何数据!
揭晓谈论
◎接待加入讨论,,请在这里揭晓您的看法、交流您的看法。。。。。