凯时AG

英伟达推出LocateAnything，，，，主打AI高速、高精度检测工具

作者：戴茜元

宣布时间：2026-06-14 17:42:19

阅读量：1523

英伟达推出LocateAnything，，，，主打AI高速、高精度检测工具

IT之家 5 月 30 日新闻，，，，英伟达昨日（5 月 29 日）宣布博文，，，，宣布携手香港理工大学、南京大学等，，，，推出 LocateAnything 模子，，，，主打高速、高精度检测工具。。。。。。

该模子可以从照片或截图中找出指定工具，，，，并用检测框标出位置，，，，重点服务机械人感知、电脑自动操作等需要快速定位的场景。。。。。。

NVIDIA 在先容中强调，，，，机械人和 AI Agent（智能体）仅能“望见”还不敷，，，，还必需足够快地确认目的位置。。。。。。LocateAnything 围绕检测框展望重新设计，，，，让视觉语言检测更适合即时交互使命。。。。。。

LocateAnything 提出 Parallel Box Decoding（并行框解码），，，，把界线框或点作为牢靠长度原子单位，，，，在 1 步内展望 x1、y1、x2、y2。。。。。。

该框架提供 Fast Mode、Slow Mode 与 Hybrid Mode：

Fast Mode 面向端侧机械人和具身智能，，，，强调吞吐；；；；；Slow Mode 偏向离线标注和高精度评测；；；；；Hybrid Mode 默认快速输出，，，，遇到名堂异；；；；；蚩占淦缫迨鼻谢刈曰毓榻饴搿！。。。。

团队还构建 LocateAnything-Data，，，，包括 12M 自力图像、138M 语言盘问和 785M 界线框。。。。。。数据笼罩通用检测、GUI 元素定位、指代表达明确、OCR 文字定位、版面定位和点定位，，，，显著扩展训练场景。。。。。。

在单张 NVIDIA H100 GPU 上，，，，LocateAnything 默认 Hybrid Mode 抵达 12.7 Boxes Per Second（每秒框数），，，，凌驾 Qwen3-VL 的 1.1 BPS，，，，也高于 Rex-Omni 的 5.0 BPS。。。。。。

高精度使命中，，，，LocateAnything 在 LVIS 的 IoU=0.95 下得分 31.1，，，，高于 Rex-Omni 的 20.7；；；；；ScreenSpot-Pro 平均 F1 达 60.3；；；；；DocLayNet 和 M6Doc 划分达 76.8 与 70.1。。。。。。

IT之家附上参考地点

　

【编辑者：陈婉婷】

相关标签

昌九高铁全线铺轨顺遂意会林郑月娥：“背靠祖国，，，，连通天下”是香港立异科技奇异优势 “追求实着实在、没有水分的增添”｜总书记深“话”政绩观⑤ 中国最北高铁哈伊高铁首次开行动车组测试列车

文章点评

未盘问到任何数据！

揭晓谈论

◎接待加入讨论，，，，请在这里揭晓您的看法、交流您的看法。。。。。。

【网站地图】