凯时AG

2026-06-15 07:13:09 设为首页 | 加入珍藏

英伟达推出LocateAnything，，，主打AI高速、高精度检测工具

2026-06-15 07:13:09 宣布泉源：CCTV5 作者：陈昱真浏览：8938次

IT之家 5 月 30 日新闻，，，英伟达昨日（5 月 29 日）宣布博文，，，宣布携手香港理工大学、南京大学等，，，推出 LocateAnything 模子，，，主打高速、高精度检测工具。。

该模子可以从照片或截图中找出指定工具，，，并用检测框标出位置，，，重点服务机械人感知、电脑自动操作等需要快速定位的场景。。

NVIDIA 在先容中强调，，，机械人和 AI Agent（智能体）仅能“望见”还不敷，，，还必需足够快地确认目的位置。。LocateAnything 围绕检测框展望重新设计，，，让视觉语言检测更适合即时交互使命。。

LocateAnything 提出 Parallel Box Decoding（并行框解码），，，把界线框或点作为牢靠长度原子单位，，，在 1 步内展望 x1、y1、x2、y2。。

该框架提供 Fast Mode、Slow Mode 与 Hybrid Mode：

Fast Mode 面向端侧机械人和具身智能，，，强调吞吐；；Slow Mode 偏向离线标注和高精度评测；；Hybrid Mode 默认快速输出，，，遇到名堂异；；蚩占淦缫迨鼻谢刈曰毓榻饴。。

团队还构建 LocateAnything-Data，，，包括 12M 自力图像、138M 语言盘问和 785M 界线框。。数据笼罩通用检测、GUI 元素定位、指代表达明确、OCR 文字定位、版面定位和点定位，，，显著扩展训练场景。。

在单张 NVIDIA H100 GPU 上，，，LocateAnything 默认 Hybrid Mode 抵达 12.7 Boxes Per Second（每秒框数），，，凌驾 Qwen3-VL 的 1.1 BPS，，，也高于 Rex-Omni 的 5.0 BPS。。

高精度使命中，，，LocateAnything 在 LVIS 的 IoU=0.95 下得分 31.1，，，高于 Rex-Omni 的 20.7；；ScreenSpot-Pro 平均 F1 达 60.3；；DocLayNet 和 M6Doc 划分达 76.8 与 70.1。。

IT之家附上参考地点

按妄想，，，神舟二十三号航天员乘组在轨时代将新开展100余项科学与应用项目，，，主要针对空间生命科学、空间质料科学、微重力流体物理、航天医学、航天新手艺等领域前沿科学与手艺问题举行深入研究和验证。。其中：

责任编辑：冯孝惠校对：李彦琬

今日热门

相关推荐

【网站地图】