凯时AG

2026-06-16 05:44:13 设为首页 | 加入珍藏

英伟达推出LocateAnything, ,,,,主打AI高速、高精度检测工具

2026-06-16 05:44:13 宣布 泉源:世纪佳缘 作者:林亚蓉 浏览:8682次

IT之家 5 月 30 日新闻, ,,,,英伟达昨日(5 月 29 日)宣布博文, ,,,,宣布携手香港理工大学、南京大学等, ,,,,推出 LocateAnything 模子, ,,,,主打高速、高精度检测工具。 。

该模子可以从照片或截图中找出指定工具, ,,,,并用检测框标出位置, ,,,,重点服务机械人感知、电脑自动操作等需要快速定位的场景。 。

NVIDIA 在先容中强调, ,,,,机械人和 AI Agent(智能体)仅能“望见”还不敷, ,,,,还必需足够快地确认目的位置。 。LocateAnything 围绕检测框展望重新设计, ,,,,让视觉语言检测更适合即时交互使命。 。

LocateAnything 提出 Parallel Box Decoding(并行框解码), ,,,,把界线框或点作为牢靠长度原子单位, ,,,,在 1 步内展望 x1、y1、x2、y2。 。

该框架提供 Fast Mode、Slow Mode 与 Hybrid Mode:

Fast Mode 面向端侧机械人和具身智能, ,,,,强调吞吐;; ;;;;Slow Mode 偏向离线标注和高精度评测;; ;;;;Hybrid Mode 默认快速输出, ,,,,遇到名堂异常; ;;;;蚩占淦缫迨鼻谢刈曰毓榻饴。 。

团队还构建 LocateAnything-Data, ,,,,包括 12M 自力图像、138M 语言盘问和 785M 界线框。 。数据笼罩通用检测、GUI 元素定位、指代表达明确、OCR 文字定位、版面定位和点定位, ,,,,显著扩展训练场景。 。

在单张 NVIDIA H100 GPU 上, ,,,,LocateAnything 默认 Hybrid Mode 抵达 12.7 Boxes Per Second(每秒框数), ,,,,凌驾 Qwen3-VL 的 1.1 BPS, ,,,,也高于 Rex-Omni 的 5.0 BPS。 。

高精度使命中, ,,,,LocateAnything 在 LVIS 的 IoU=0.95 下得分 31.1, ,,,,高于 Rex-Omni 的 20.7;; ;;;;ScreenSpot-Pro 平均 F1 达 60.3;; ;;;;DocLayNet 和 M6Doc 划分达 76.8 与 70.1。 。

IT之家附上参考地点

活动为期四天, ,,,,各大舞台并行孝顺精彩的活动, ,,,,笼罩专业赛事、明星演唱、主播线下晤面会三大焦点内容:

责任编辑:陈佳霖    校对:杨俊霖

今日热门

  1. 中方对俄罗斯实验免签政策至今31.8万名俄罗斯籍游客经上??诎度刖
  2. 上海二手房收购保租房523套
  3. 伊朗外长访华, ,,,,外媒剖析中东棋局:中国促和、美国叫停、美伊坚持
  4. 我国造船业再创全球新纪录
  5. 直播海报:山西沁源煤矿瓦斯爆炸事故救援情形新闻宣布会
  6. 海南63万尾优质鱼苗“游向”马来西亚
  7. 亿缕阳光|警暖山海
  8. 曝巴萨篮球俱乐部有意上外洋援古德温
  9. 明晰执法界线 健全制度规范 让景区NPC从“网红”走向“长红”
  10. 孩子家中卫生间点烟花引生气灾!家长:“已不是第一次玩火……”

相关推荐

【网站地图】