← 返回项目列表
LocateAnything-3B 是 NVIDIA 发布在 Hugging Face 上的 3B 参数视觉语言 grounding 模型,面向“看图并根据自然语言定位目标”的任务,可输出目标框或点位。它的核心价值在于把目标检测、指代表达定位、GUI 元素定位、OCR/版面定位、点选定位等统一到一个 VLM 框架里,并通过 Parallel Box Decoding 提升定位解码效率。售前上适合用于视觉 Agent、GUI 自动化、工业视觉、文档理解、机器人/自动驾驶感知等方案讨论;但模型许可证限制为非商业研究/评估用途,不能直接作为商业交付模型使用。

1. 模型概览

项目信息
模型页nvidia/LocateAnything-3B
官方项目页LocateAnything
在线 DemoHugging Face Space
代码入口NVlabs/Eagle/Embodied
论文arXiv:2605.27365
模型类型Transformer-based Vision-Language Model
参数规模约 3B;Hugging Face safetensors 显示 BF16 参数约 3.83B
Base modelQwen/Qwen2.5-3B-Instruct
Vision encoderMoonViT / MoonViT-SO-400M
Pipelineimage-text-to-text
LibraryTransformers,需 trust_remote_code=True
LicenseNVIDIA License,非商业研究/评估用途
Hugging Face 热度约 570k downloads、2.4k likes,检查日期:2026-06-27
最近修改2026-06-12,检查日期:2026-06-27
发布日期模型卡标注 GitHub / HF / Demo / Webpage 于 2026-05-26 发布
运行平台Linux;推荐 NVIDIA GPU;文档列出 A100、H100、L40、RTX 4090、Blackwell 等

2. 关键示意图

能力总览与 PBD 对比

这张图最适合售前开场使用:上半部分展示 LocateAnything 覆盖多物体定位、点选定位、版面定位、GUI grounding、检测和 OCR;下半部分展示它和传统坐标 token 解码的区别。传统方法需要逐 token 生成坐标,PBD 将一个 box 作为原子单元并行生成。

模型架构与结构化块输出

架构图说明:输入是图像 + 文本查询;视觉编码器为 Moon-ViT,语言侧为 Qwen2.5,中间通过两层 MLP projector 连接;输出不是普通自然语言,而是包含 semantic block、box block、negative block、end block 的结构化定位序列。

Parallel Box Decoding 方法图

这张图适合解释核心技术创新:把一组 box 坐标视作耦合几何结构,而不是彼此独立的 token。对于定位任务,这有助于减少坐标顺序生成带来的延迟和几何不一致。

数据覆盖

官方资料说明训练数据覆盖自然场景、机器人、驾驶、GUI、文档、OCR、开放世界检测等多域。模型卡提到训练集包含 12M unique images、约 140M 自然语言 queries、785M bounding boxes。

GUI / OCR / Detection 等 benchmark 图

这些图分别对应 GUI grounding、layout/OCR、通用目标检测等能力,适合放在客户材料中说明它不是单一检测器,而是面向多种视觉定位任务的通用 grounding 模型。

3. 它到底能做什么

LocateAnything-3B 的核心任务可以概括为:给它一张图片和一句自然语言指令,它输出目标在图像中的位置,通常是 bounding box 或 point。

能力举例业务价值
开放类别目标检测“定位所有 person、car、bicycle”不需要为每个类别单独训练传统检测器,更适合长尾对象
指代表达 grounding“定位穿红衣服的人”“左侧第二辆车”支持更自然的人机交互和视觉问答落地
多物体密集检测拥挤场景中定位大量对象适合安防、交通、遥感、仓储盘点等
GUI 元素 grounding“定位搜索按钮”“点击 crop tool”适合视觉 GUI Agent、RPA 增强、Computer Use
OCR / 文本定位“检测所有文本”“定位某个路牌文字”文档理解、票据识别、场景文字检测
文档版面 grounding定位标题、段落、公式、表格等区域适合 PDF/文档智能解析、版面还原
点选定位“Point to the traffic light”适合机器人、远程操控、具身智能交互
机器人 / 自动驾驶感知识别空间对象并输出位置可作为 Physical AI 感知模块的候选技术

4. 核心技术亮点

4.1 Parallel Box Decoding

传统 VLM grounding 通常把 2D box 坐标序列化成多个 1D token,再逐 token 自回归生成。这有两个问题:第一,坐标之间天然是耦合的几何结构,但逐 token 生成会削弱几何一致性;第二,严格串行生成会成为推理瓶颈。

LocateAnything 的 PBD 将 box 或 point 作为原子几何单元并行解码。官方论文摘要称,PBD 同时改善了解码吞吐和定位准确率,并推动 speed-accuracy frontier。

4.2 三种推理模式

模式说明适合场景
fastMTP only,不回退到自回归简单场景、追求速度
slow纯 autoregressive decoding追求稳定性和准确性的离线任务
hybrid默认先并行,遇到格式异常或空间歧义回退到自回归推荐默认,兼顾速度和效果

模型卡建议使用 max_new_tokens=8192generation_mode="hybrid",以避免输出被截断,并平衡速度与准确率。

4.3 大规模多域数据

模型卡和项目页强调 LocateAnything-Data 包含大规模、多领域训练数据:

维度官方描述
图像规模12M unique images
Query 规模模型卡写约 140M natural-language queries;项目页和论文摘要强调 138M+ training samples / language queries
Box 规模785M bounding boxes
数据域grounding、open-world grounding、dense detection、scene text、GUI、document layout、OCR、robotics/driving 等
标注方式人工、开源标注、模型辅助、合成标注、自动验证

4.4 高吞吐 batch inference 工具

模型仓库不仅给了 model weights,还提供 batch_infer.pybatch_utilskernel_utils。其中 la_flash 后端用于 FlashAttention varlen sparse range 计划,目标是避免构造 dense [B,H,Q,K] attention mask。

模型卡给出的 A100 4K 图像 probe 示例:

BackendAttention PathTimePeak Reserved Memory
sdpaDense SDPA masks8.2600s35.12GB
la_flashFlashAttention sparse range plan8.0314s11.71GB

售前解释:它不仅是模型权重,还包含面向高分辨率、多目标 batch 检测的推理工程优化思路。

5. 适用场景

5.1 GUI Agent / Computer Use

LocateAnything 能做 GUI element grounding:给定屏幕截图和自然语言指令,定位按钮、菜单、图标或区域。它可作为视觉 GUI Agent 的感知模块,帮助 Agent 从“理解界面截图”走向“知道该点击哪里”。

适合场景:

场景价值
桌面/网页自动化在缺少 DOM 或页面结构不可用时,通过视觉定位元素
软件测试根据自然语言测试步骤定位 UI 控件
RPA 增强让 RPA 从坐标录制升级为语义控件定位
远程运维在截图/视频流中定位操作目标

5.2 文档理解和 OCR/Layout

它支持 layout grounding 和 OCR localization,可用于定位标题、段落、公式、表格、文本块、特定字段等。

适合场景:

场景价值
PDF/扫描件解析在复杂版面中定位字段和区域
票据/合同处理找到关键字段位置,辅助结构化抽取
文档审核识别文档区域并与规则/问答结合
知识库构建提升图文混排文档切片和版面理解

5.3 工业视觉和质检

开放类别检测和指代表达 grounding 适合做工业视觉 PoC,尤其是客户对象种类多、长尾缺陷多、传统检测器维护成本高的情况。

注意:商业落地不能直接使用该模型许可证,需要把它作为技术验证、选型参考或与 NVIDIA 商务授权沟通。

5.4 机器人 / 具身智能 / 自动驾驶

项目页和模型卡都提到 robotics、driving、Physical AI。LocateAnything 可作为“语言指令到视觉位置”的桥接模块,例如“抓取左边的杯子”“定位红色按钮”“指向路口信号灯”。

5.5 自动标注和数据生产

它可以用于生成 grounding / detection / pointing 的候选标注,再由人工或规则复核。适合训练数据准备、长尾对象标注、GUI 数据集构建。

6. 不太适合的场景

场景原因
直接商业交付NVIDIA License 明确限制非商业研究/评估用途,商业使用不允许,除 NVIDIA 及其 affiliates 外
CPU-only 或低端设备部署官方强调 NVIDIA GPU 加速系统;3B VLM + 高分辨率输入对显存和算力有要求
极低延迟边缘端虽有 PBD 和 batch 工具,但 3B 模型在嵌入式平台上仍需量化、压缩、蒸馏等优化
需要严格安全认证的生产系统模型卡提示需要按 use-case-specific data 做迭代测试和验证
没有图像/截图输入的纯文本场景它是视觉 grounding 模型,不是通用文本 LLM
高风险自动决策定位结果可能错误,需要人工复核或系统级安全冗余
多语言 grounding模型卡语言标注为 English,主要 prompt/query 是英语任务表达

7. 怎么用

7.1 安装依赖

模型卡给出的基础依赖:

pip install opencv-python-headless==4.11.0.86 transformers==4.57.1 numpy==1.25.0 Pillow==11.1.0 peft torchvision decord==0.6.0 lmdb==1.7.5

PyTorch 需要按 CUDA 版本单独安装。Hopper / Blackwell GPU 可选安装 MagiAttention,用于更快的 MTP inference;未安装时会回退到 PyTorch SDPA。

7.2 Python 调用方式

模型卡提供了一个 LocateAnythingWorker 模式:启动时加载 tokenizer、processor、model,之后通过 predict() 和任务方法服务检测、grounding、OCR、GUI grounding 等请求。

简化示例:

from PIL import Image

worker = LocateAnythingWorker("nvidia/LocateAnything-3B")
img = Image.open("example.jpg").convert("RGB")

result = worker.detect(img, ["person", "car", "bicycle"])
print(result["answer"])

result = worker.ground_gui(img, "the search button", output_type="point")
print(result["answer"])

输出格式中 box/point 坐标是归一化到 [0, 1000] 的 token,需要再转换成像素坐标。

7.3 支持的 Prompt 模板

任务Prompt Template输出
Object DetectionLocate all the instances that matches the following description: [CATEGORIES].Box
Phrase GroundingLocate a single instance that matches the following description: [PHRASE].Single Box
Multi Phrase GroundingLocate all the instances that match the following description: [PHRASE].Multiple Boxes
Text GroundingPlease locate the text referred as [PHRASE].Box
Scene Text DetectionDetect all the text in box format.Box
GUI GroundingLocate the region that matches the following description: [PHRASE].Box
GUI PointingPoint to: [PHRASE].Point

7.4 Batch inference

python batch_infer.py \
  --model nvidia/LocateAnything-3B \
  --attn la_flash \
  --scheduler pipeline \
  --batch-size 4 \
  --image /path/to/image.jpg \
  --query "personcar"

这个模式适合离线批量检测、自动标注和评测,不适合训练路径。

8. 售前可以怎么讲

面向业务方

客户关注点推荐话术
视觉 AI 能不能听懂自然语言“LocateAnything 可以把自然语言描述直接转换成图像中的位置,例如定位按钮、文本、物体、文档区域。”
UI 自动化为什么需要它“当 DOM 不可用、界面是远程桌面/图片/视频流时,视觉 grounding 可以告诉 Agent 应该点击哪里。”
工业视觉对象很多“它不是传统固定类别检测器,而是开放类别/自然语言驱动的定位模型,适合长尾对象和快速 PoC。”
文档场景复杂“它能定位版面区域、OCR 文本和布局元素,可与 OCR/LLM 抽取流程结合。”
性能亮点“核心 PBD 不是逐 token 生成坐标,而是并行解码 box,提高吞吐并保持几何一致性。”

面向技术方

技术问题推荐说明
模型怎么接“Transformers + custom code,AutoModel/AutoProcessor 加载,建议 BF16 + GPU。”
输出怎么用“输出是结构化 token,需要解析 坐标并映射到原图像素。”
部署怎么做“可封装成 FastAPI/gRPC worker;高吞吐场景可评估 batch_infer、la_flash、MagiAttention。”
能不能商用“当前公开模型许可证不允许商业使用。商业项目需另行授权或只把它作为技术验证参考。”
和 Grounding DINO 类模型区别“Grounding DINO 更偏检测/grounding 专用模型;LocateAnything 是 VLM 式统一生成框架,覆盖 GUI、OCR、layout、pointing 等更多任务形态。”

9. PoC 建议

9.1 推荐 PoC 方向

PoC输入输出验证指标
GUI 控件定位应用截图 + 操作描述按钮/区域 box 或 point点击命中率、任务成功率
文档版面定位PDF 页面截图 + 字段描述字段/段落/表格位置IoU、字段召回率、抽取准确率
工业缺陷/对象定位产线图像 + 对象/缺陷描述检测框mAP、IoU、漏检率、误检率
遥感/交通密集检测高分辨率图像 + 类别多目标框召回率、密集场景吞吐
自动标注待标注图片 + 类别/描述候选标注人工修正率、标注提效

9.2 PoC 设计建议

项目建议
数据量先准备 50-200 张代表性图片,覆盖简单、中等、困难场景
标注建立一小批人工 ground truth,用 IoU / point-in-mask / hit rate 评估
模式默认用 hybrid;对比 fastslow 的速度/准确率
资源优先 H100/A100/L40/RTX 4090;记录显存、延迟、吞吐
安全不直接接生产控制链路,先在沙箱或离线评测中验证
许可明确 PoC 仅用于研究/评估;商业落地需确认授权

9.3 验收指标示例

指标建议目标
GUI 点击命中率常见控件 >85%,复杂/遮挡场景单独分析
Box IoU@0.5按业务场景设定,先看相对传统方案提升
点选命中率点落在目标 mask/box 内
推理延迟按单图、batch、高分辨率分别记录
人工标注提效候选框可用率、人工修正时间减少
失败类型小目标、遮挡、反光、密集重叠、文本模糊等分类统计

10. 风险和注意事项

风险说明建议
许可限制NVIDIA License 限制非商业研究/评估用途,商业使用不允许售前必须明确;商业项目需谈授权或换可商用模型
模型卡非通用生产承诺明确是 research model variant,需 use-case-specific 测试先 PoC,不能直接承诺生产效果
高算力需求3B VLM + 高分辨率图像对 GPU/显存要求高做硬件 sizing,评估量化/蒸馏/裁剪
自定义代码加载需要 trust_remote_code=True,有供应链安全审查要求在企业内网镜像、代码审计、固定 commit
坐标解析和后处理输出是文本 token,需解析、映射、过滤封装稳定 parser 和异常处理
误定位风险视觉 grounding 可能受遮挡、模糊、小目标影响人工确认、规则校验、多模型交叉验证
隐私和合规输入图片可能包含人脸、健康信息、商业机密脱敏、访问控制、日志治理
语言范围主要面向英文 prompt中文场景需实测或做 prompt 翻译层

11. 与相关技术的关系

技术与 LocateAnything 的关系
Grounding DINO经典开放词汇检测/grounding 模型;LocateAnything 更强调 VLM 统一生成、PBD 和多任务覆盖
SAM / SAM 3SAM 偏分割;LocateAnything 偏自然语言到 box/point,可作为 SAM 的 prompt 生成器
OCR 引擎OCR 负责文字识别;LocateAnything 可补充文本区域定位和版面 grounding
多模态大模型通用 VLM 能理解图像;LocateAnything 更专注高质量视觉定位输出
RPA / GUI AgentLocateAnything 可作为视觉定位模块,和操作执行器、流程编排器结合
传统检测器传统检测器需要固定类别训练;LocateAnything 更适合开放类别和自然语言描述

12. 我的售前判断

LocateAnything-3B 是一个很适合“视觉 Agent / Physical AI / GUI grounding”方向交流的模型。它把很多客户关心的问题串起来了:AI 不仅要看懂图,还要告诉系统“目标在哪里”;不仅能识别常见物体,还能通过自然语言定位 GUI 控件、文档区域、OCR 文本和密集目标。

它的售前价值在于提供一个强 demo:客户输入一句自然语言,模型直接在复杂图像里定位目标。对于 GUI 自动化、文档智能、工业质检、机器人和自动驾驶感知,这类能力非常直观。

但它当前不适合作为直接商用交付的开源模型,因为许可证限制非常关键。更合适的定位是:用于研究评估、PoC 验证、方案原型、技术路线选型,或者作为与 NVIDIA 生态/授权合作的入口。正式商业方案需要提前解决授权、模型部署、硬件成本、隐私合规和稳定性验证。

13. 常见客户 Q&A

问题回答建议
它能不能商用?当前 Hugging Face 模型采用 NVIDIA License,限制为非商业研究/评估用途,不能直接商用。商业项目需要另行确认授权。
它和普通目标检测有什么区别?普通检测器通常是固定类别;LocateAnything 可以用自然语言描述目标,覆盖 GUI、OCR、layout、pointing 等多任务。
它能输出什么?主要输出结构化文本 token,包含 坐标或点位,需要解析成像素坐标后使用。
它能处理中文指令吗?模型卡语言标注为 English,中文指令需要实测;工程上可先用翻译层转英文 prompt。
需要多大 GPU?官方列出 A100/H100/L40/RTX 4090 等 NVIDIA GPU,具体显存取决于分辨率、batch、模式和后端。
是否支持 TensorRT / Triton?模型卡写明当前 runtime engine 是 Transformers,TensorRT、TensorRT-LLM、Triton 尚未支持。
能否用于 GUI 自动点击?它负责定位控件位置,还需要和点击执行器、权限控制、异常确认、业务流程编排结合。