five

PropVG-Data

收藏
Hugging Face2025-09-08 更新2025-09-09 收录
下载链接:
https://huggingface.co/datasets/Dmmm997/PropVG-Data
下载链接
链接失效反馈
官方服务:
资源简介:
PropVG视觉定位数据集包含了用于PropVG模型的标注数据,该模型是一种端到端的提议驱动视觉定位框架,适用于无需额外检测器的情况下,将前景对象提议生成与参照对象理解无缝集成。数据集涵盖了多个视觉定位基准,如RefCOCO、gRefCOCO等,包含了相应的参照标注和前景标注文件。

The PropVG Visual Grounding Dataset contains annotated data for the PropVG model, which is an end-to-end proposal-driven visual grounding framework that seamlessly integrates foreground object proposal generation and referring object understanding without requiring additional detectors. The dataset covers multiple visual grounding benchmarks such as RefCOCO, gRefCOCO, etc., and includes corresponding referring annotations and foreground annotation files.
创建时间:
2025-09-05
原始信息汇总

PropVG Visual Grounding Datasets 概述

数据集基本信息

  • 许可证: Apache-2.0
  • 任务类别: 零样本目标检测
  • 语言: 英语
  • 标签: 视觉定位、目标检测、指代表达式理解

数据集来源

该数据集为PropVG模型使用的标注数据,相关论文为《PropVG: End-to-End Proposal-Driven Visual Grounding with Multi-Granularity Discrimination》。

数据集结构

数据集包含多个视觉定位基准的标注文件,需单独准备相应图像数据集(如MSCOCO)。

目录结构

| -- data |--seqtr_type | -- annotations | -- refcoco-unc | -- instances_withid.json | -- refcocoplus-unc | -- instances_withid.json | -- refcocog-umd | -- instances_withid.json | -- mixed-seg | -- instances_nogoogle_withid.json | -- coco_all.json | -- grefs | -- instance.json | -- coco_annotations.json | -- ref-zom | -- instances_withid.json | -- allobj.json | -- rrefcoco | -- instances_withid.json | -- allobj.json | -- images | -- mscoco | -- train2014

标注文件详情

训练集 指代表注文件 前景标注文件
RefCOCO instances_withid.json coco_all.json
RefCOCO+ instances_withid.json coco_all.json
RefCOCOg instances_withid.json coco_all.json
RefCOCO-mix instances_nogoogle_withid.json coco_all.json
gRefCOCO instances_withid.json coco_annotations.json
Ref-ZOM instances_withid.json allobj.json
RRefCOCO instances_withid.json allobj.json

使用示例

GRES任务演示

bash python tools/demo.py --img "asserts/imgs/Figure_1.jpg" --expression "three skateboard guys" --config "configs/gres/PropVG-grefcoco.py" --checkpoint /PATH/TO/PropVG-grefcoco.pth --img_size 320

RIS任务演示

bash python tools/demo.py --img "asserts/imgs/Figure_2.jpg" --expression "full half fruit" --config "configs/refcoco/PropVG-refcoco-mix.py" --checkpoint /PATH/TO/PropVG-refcoco-mix.pth --img_size 384

引用信息

bibtex @misc{propvg, title={PropVG: End-to-End Proposal-Driven Visual Grounding with Multi-Granularity Discrimination}, author={Ming Dai and Wenxuan Cheng and Jiedong Zhuang and Jiang-jiang Liu and Hongshen Zhao and Zhenhua Feng and Wankou Yang}, year={2025}, eprint={2509.04833}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2509.04833}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在视觉定位研究领域,PropVG-Data数据集通过整合多个权威基准构建而成,其核心在于精心设计的标注架构。该数据集以MSCOCO图像库为基础,分别针对RefCOCO、RefCOCO+、RefCOCOg等七个子集提供标准化的指代表达标注与前景目标标注文件。标注过程采用实例级别的标识映射策略,确保每个指代表达都能精确关联到图像中的具体目标区域,同时通过多粒度验证机制保障标注质量与一致性。
特点
PropVG-Data的显著特征体现在其多维度标注体系与任务适配性上。数据集不仅涵盖常规的指代理解任务标注,还专门针对零样本目标检测与复杂场景下的缺席目标识别需求,提供了语义级与对象级的多粒度判别标注。其标注文件结构经过统一化处理,支持跨数据集的联合训练与评估,同时兼容端到端模型与两阶段框架的实验需求,为视觉定位研究提供了高度灵活的基准环境。
使用方法
使用PropVG-Data时需预先配置MSCOCO图像数据,并按照指定目录结构组织标注文件。研究人员可通过加载对应的JSON标注文件,结合PropVG模型提供的配置脚本与预训练权重进行实验复现。数据集支持通过命令行工具直接调用演示脚本,例如在GRES任务中指定图像路径、指代表达与模型配置参数即可实现可视化推理。详细的环境配置与训练流程需参考原项目代码库的说明文档。
背景与挑战
背景概述
视觉定位作为计算机视觉与自然语言处理交叉领域的关键研究方向,旨在实现自然语言描述与图像中特定区域的精准关联。PropVG数据集由研究团队于2025年提出,其核心研究问题聚焦于解决传统两阶段框架效率低下与计算复杂度高的瓶颈,通过端到端的提案驱动机制推动视觉定位技术的发展。该数据集整合了RefCOCO、gRefCOCO等多个权威基准的标注数据,为多粒度目标判别与对比学习提供了坚实基础,对视觉语言理解领域的算法创新具有显著影响力。
当前挑战
视觉定位领域面临的核心挑战在于如何实现语言描述与图像区域的高精度对齐,特别是在复杂场景中存在多目标干扰、尺度变化及语义歧义时。PropVG数据集构建过程中需克服多源数据融合的复杂性,包括不同标注标准的统一、前景目标与指代表达的协同标注,以及大规模图像与文本对的语义一致性验证。此外,缺乏显性监督信号的目标提案生成与指代理解的无缝集成,亦是技术实现的重要难点。
常用场景
经典使用场景
在视觉 grounding 研究领域,PropVG-Data 数据集主要服务于端到端的提案驱动式视觉定位任务。该数据集通过整合多粒度标注信息,支持模型同时处理目标提案生成与指代理解两个关键环节。研究者通常利用其丰富的指代表达标注和前景目标标注,在复杂场景中实现精准的对象识别与定位,特别是在需要区分语义相近目标的场景中展现出色性能。
解决学术问题
该数据集有效解决了传统视觉定位方法中存在的监督信号单一问题,通过引入对比学习机制和多粒度判别模块,显著提升了模型对指代目标的辨识能力。其创新性地将前景目标提案与指代理解无缝集成,避免了额外检测器的需求,为端到端视觉定位模型提供了更高效的训练范式,推动了该领域从两阶段框架向一体化架构的演进。
衍生相关工作
基于 PropVG-Data 数据集,研究者开发了多项创新性工作,其中最具代表性的是 PropVG 模型框架及其核心模块。该框架提出的对比式指代评分模块(CRS)和多粒度目标判别模块(MTD)已成为视觉定位领域的重要基准,后续研究在此基础上进一步拓展了跨模态理解、零样本检测等方向,推动了整个视觉-语言交互研究领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作