凯时AG

环球热门新闻资讯
2026-06-17 07:54:32
首页 > 新闻 > 时政要闻 > 正文

英伟达推出LocateAnything,,,,,,主打AI高速、高精度检测工具

IT之家 5 月 30 日新闻,,,,,,英伟达昨日(5 月 29 日)宣布博文,,,,,,宣布携手香港理工大学、南京大学等,,,,,,推出 LocateAnything 模子,,,,,,主打高速、高精度检测工具。。。

该模子可以从照片或截图中找出指定工具,,,,,,并用检测框标出位置,,,,,,重点服务机械人感知、电脑自动操作等需要快速定位的场景。。。

NVIDIA 在先容中强调,,,,,,机械人和 AI Agent(智能体)仅能“望见”还不敷,,,,,,还必需足够快地确认目的位置。。。LocateAnything 围绕检测框展望重新设计,,,,,,让视觉语言检测更适合即时交互使命。。。

LocateAnything 提出 Parallel Box Decoding(并行框解码),,,,,,把界线框或点作为牢靠长度原子单位,,,,,,在 1 步内展望 x1、y1、x2、y2。。。

该框架提供 Fast Mode、Slow Mode 与 Hybrid Mode:

Fast Mode 面向端侧机械人和具身智能,,,,,,强调吞吐;;;;Slow Mode 偏向离线标注和高精度评测;;;;Hybrid Mode 默认快速输出,,,,,,遇到名堂异;;;;蚩占淦缫迨鼻谢刈曰毓榻饴。。。

团队还构建 LocateAnything-Data,,,,,,包括 12M 自力图像、138M 语言盘问和 785M 界线框。。。数据笼罩通用检测、GUI 元素定位、指代表达明确、OCR 文字定位、版面定位和点定位,,,,,,显著扩展训练场景。。。

在单张 NVIDIA H100 GPU 上,,,,,,LocateAnything 默认 Hybrid Mode 抵达 12.7 Boxes Per Second(每秒框数),,,,,,凌驾 Qwen3-VL 的 1.1 BPS,,,,,,也高于 Rex-Omni 的 5.0 BPS。。。

高精度使命中,,,,,,LocateAnything 在 LVIS 的 IoU=0.95 下得分 31.1,,,,,,高于 Rex-Omni 的 20.7;;;;ScreenSpot-Pro 平均 F1 达 60.3;;;;DocLayNet 和 M6Doc 划分达 76.8 与 70.1。。。

IT之家附上参考地点

这里是一本堂铁文化艺术馆(以下简称“一本堂”)。。。没有玻璃罩,,,,,,没有隔离线,,,,,,铁壶、铁釜、铁制香具就这么搁在老木桌上,,,,,,伸手就能遇到。。。

责任编辑:吕致盈

【网站地图】