凯时AG

2026-06-18 08:36:04 设为首页 | 加入珍藏

英伟达推出LocateAnything , ,,,,主打AI高速、高精度检测工具

2026-06-18 08:36:04 宣布 泉源:魅族Flyme 作者:罗嘉慧 浏览:8885次

IT之家 5 月 30 日新闻 , ,,,,英伟达昨日(5 月 29 日)宣布博文 , ,,,,宣布携手香港理工大学、南京大学等 , ,,,,推出 LocateAnything 模子 , ,,,,主打高速、高精度检测工具。。。。。。

该模子可以从照片或截图中找出指定工具 , ,,,,并用检测框标出位置 , ,,,,重点服务机械人感知、电脑自动操作等需要快速定位的场景。。。。。。

NVIDIA 在先容中强调 , ,,,,机械人和 AI Agent(智能体)仅能“望见”还不敷 , ,,,,还必需足够快地确认目的位置。。。。。。LocateAnything 围绕检测框展望重新设计 , ,,,,让视觉语言检测更适合即时交互使命。。。。。。

LocateAnything 提出 Parallel Box Decoding(并行框解码) , ,,,,把界线框或点作为牢靠长度原子单位 , ,,,,在 1 步内展望 x1、y1、x2、y2。。。。。。

该框架提供 Fast Mode、Slow Mode 与 Hybrid Mode:

Fast Mode 面向端侧机械人和具身智能 , ,,,,强调吞吐;;;;;Slow Mode 偏向离线标注和高精度评测;;;;;Hybrid Mode 默认快速输出 , ,,,,遇到名堂异;;;;;蚩占淦缫迨鼻谢刈曰毓榻饴。。。。。。

团队还构建 LocateAnything-Data , ,,,,包括 12M 自力图像、138M 语言盘问和 785M 界线框。。。。。。数据笼罩通用检测、GUI 元素定位、指代表达明确、OCR 文字定位、版面定位和点定位 , ,,,,显著扩展训练场景。。。。。。

在单张 NVIDIA H100 GPU 上 , ,,,,LocateAnything 默认 Hybrid Mode 抵达 12.7 Boxes Per Second(每秒框数) , ,,,,凌驾 Qwen3-VL 的 1.1 BPS , ,,,,也高于 Rex-Omni 的 5.0 BPS。。。。。。

高精度使命中 , ,,,,LocateAnything 在 LVIS 的 IoU=0.95 下得分 31.1 , ,,,,高于 Rex-Omni 的 20.7;;;;;ScreenSpot-Pro 平均 F1 达 60.3;;;;;DocLayNet 和 M6Doc 划分达 76.8 与 70.1。。。。。。

IT之家附上参考地点

这首“湘”味十足的Rap里 , ,,,,藏着几千年前的潮流DNA

责任编辑:郭冰宇    校对:毛志伟

今日热门

  1. 工业和信息化部:严禁违规泛起APP信息窗口
  2. 习言道|90秒回首中俄元首北京会晤主要时刻
  3. 美国5月消耗者信心指数创历史新低
  4. 文坛名家聚长春寄语青年:文学沃土孕育万千精神繁花
  5. “十五五”开局看四川:全链条立异铸造西部科技高地
  6. 400余组件文物亮相 “战国秦汉时期的云南”在北京大运河博物馆展出
  7. 中国江淮江汉江南等地降雨进入最强时段
  8. 黄仁勋发出“抛物线式”忠言
  9. 油价有望迎今年首个“两连降”
  10. “五一”假期首日中国高速公路充电量同比增添55.6%

相关推荐

【网站地图】