REIRCOCO

github2025-07-16 更新2025-08-10 收录

下载链接：

https://github.com/haoxiangzhao12138/REIR

下载链接

链接失效反馈

官方服务：

资源简介：

REIRCOCO是一个专为实例级检索和定位设计的大规模基准数据集。它包含30,000多张图像中超过215,000个对象实例的独特对齐的引用表达式，总计613,000个细粒度描述。数据集通过两阶段流程构建：在生成阶段，GPT-4o被提示输入结构化信息（包括边界框、类别标签、标题和对象上下文）以生成多样且具有引用唯一性的表达式；在过滤阶段，DeepSeek-R1验证表达式的质量，仅保留明确、有根据且语义准确的描述。这确保了每个表达式精确匹配一个对象实例，使REIRCOCO非常适合检索和定位任务。

REIRCOCO is a large-scale benchmark dataset specifically designed for instance-level retrieval and localization. It contains over 215,000 unique aligned reference expressions for more than 613,000 fine-grained descriptions across 30,000+ images. The dataset is constructed through a two-phase process: during the generation phase, GPT-4o is prompted with structured information, including bounding boxes, category labels, titles, and object context, to generate diverse and reference-unique expressions; in the filtering phase, DeepSeek-R1 validates the quality of the expressions, retaining only those that are clear, well-founded, and semantically accurate. This ensures that each expression precisely matches a single object instance, making REIRCOCO highly suitable for retrieval and localization tasks.

创建时间：

2025-07-14

原始信息汇总

REIRCOCO 数据集概述

数据集基本信息

名称: REIRCOCO
用途: 实例级检索和定位
规模:
- 图像数量: 30,000+
- 对象实例: 215,000+
- 描述数量: 613,000+
特点: 精细对齐的指代表达式，每个表达对应唯一对象实例

数据集构建

生成阶段:
- 使用GPT-4o生成多样化表达
- 输入包括: 边界框、类别标签、标题、对象上下文
过滤阶段:
- 使用DeepSeek-R1验证质量
- 保留标准: 无歧义、有依据、语义准确

数据集获取

下载地址: https://huggingface.co/datasets/haoxiangzhao/REIRCOCO

引用格式

latex @article{hao2025referring, title={Referring Expression Instance Retrieval and A Strong End-to-End Baseline}, author={Hao, Xiangzhao and Zhu, Kuan and Guo, Hongyu and Guo, Haiyun and Tang, Ming and Wang, JinQiao}, journal={arXiv preprint arXiv:2506.18246}, year={2025} }

搜集汇总

数据集介绍

构建方式

在视觉语言理解领域，REIRCOCO数据集的构建采用了严谨的两阶段流程。该数据集基于MS-COCO图像库，通过GPT-4o大模型生成阶段，输入包括边界框、类别标签、图像描述等结构化信息，确保生成多样化的指代表达。随后经过DeepSeek-R1模型的严格过滤，剔除模糊或错误标注，最终保留61.3万条精确匹配对象实例的高质量描述，涵盖21.5万个实例和3万余幅图像。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，其标准化的接口支持快速集成到训练流程中。针对指代实例检索任务，建议将图像特征与文本描述嵌入联合优化；对于定位任务，则可利用边界框标注进行端到端训练。数据集已预划分训练验证测试集，并附有评估脚本，便于复现论文中的基准结果。后续将发布的CLARE模型代码可提供完整的训练范式参考。

背景与挑战

背景概述

REIRCOCO数据集由Hao Xiangzhao等人于2025年提出，旨在解决实例级检索与定位任务中的关键问题。该数据集由ACMMM2025收录，包含超过21.5万个对象实例和61.3万条细粒度描述，覆盖3万余张图像。其创新性体现在采用GPT-4o生成多样化指代表达，并通过DeepSeek-R1进行严格过滤，确保每个表达仅对应单一实例。这种双重验证机制显著提升了视觉语言对齐的精确度，为跨模态检索与定位研究提供了重要基准。

当前挑战

在领域问题层面，REIRCOCO需克服指代表达与视觉实例间复杂映射关系的建模难题，特别是处理多义词、遮挡对象及上下文依赖等场景。构建过程中，研究人员面临生成表达多样性控制与语义准确性平衡的挑战，需通过多轮迭代优化GPT-4o提示工程。此外，大规模数据清洗对计算资源提出极高要求，DeepSeek-R1的过滤算法需在保持召回率的同时消除歧义描述，这对评估指标设计提出了创新性需求。

常用场景

经典使用场景

在计算机视觉领域，REIRCOCO数据集为实例级检索和定位任务提供了丰富的标注资源。该数据集通过精心设计的生成和过滤流程，确保了每个指代表达式与特定对象实例的精确对应，使其成为评估和开发视觉语言模型的理想基准。研究人员可以借助该数据集训练模型，使其能够理解复杂的自然语言描述，并准确地定位图像中的目标对象。

解决学术问题

REIRCOCO数据集解决了视觉语言理解中的关键问题，即如何将自然语言表达与图像中的具体实例进行精确匹配。通过提供大量细粒度的描述和对应的对象实例，该数据集为研究指代表达式理解、跨模态检索和实例定位等任务提供了可靠的数据支持。其高质量的标注数据显著提升了模型在复杂场景下的泛化能力和准确性。

实际应用

在实际应用中，REIRCOCO数据集可广泛应用于智能交互系统、图像搜索和辅助技术等领域。例如，在智能助手中，模型可以利用该数据集训练出的能力，根据用户的自然语言指令快速定位图像中的特定对象。此外，该数据集还能为自动驾驶和机器人视觉系统提供支持，帮助其更好地理解环境中的物体。

数据集最近研究