gRefCOCO

Name: gRefCOCO
Creator: 复旦大学
Published: 2026-01-09 02:59:30
License: 暂无描述

arXiv2026-01-09 更新2026-01-10 收录

下载链接：

https://henghuiding.com/GREx

下载链接

链接失效反馈

官方服务：

资源简介：

gRefCOCO是由复旦大学团队构建的广义指代表达数据集，扩展自经典RefCOCO数据集，首次系统支持多目标（如‘穿红衣服的孩子’）和无目标（如‘不存在的对象’）表达场景。该数据集包含25.9万条基于COCO图像的标注数据，涵盖实例级掩码和边界框，通过自然语言描述与视觉目标的复杂关联。其构建过程通过人工标注和语义增强实现，旨在推动计算机视觉与自然语言处理交叉领域的多模态理解，解决现有方法在真实场景中灵活性和鲁棒性不足的问题，适用于智能图像编辑、人机交互等应用场景。

gRefCOCO is a generalized referring expression dataset constructed by the Fudan University research team, extended from the classic RefCOCO dataset. For the first time, it systematically supports multi-object and no-object referring scenarios, exemplified by "the child in red clothing" and "non-existent object". This dataset includes 259,000 annotated samples based on COCO images, covering instance-level masks and bounding boxes, and captures complex associations between natural language descriptions and visual targets. Developed via manual annotation and semantic augmentation, gRefCOCO aims to advance multimodal understanding in the interdisciplinary domain of computer vision and natural language processing, addressing the shortcomings of insufficient flexibility and robustness of existing methods in real-world scenarios. It is applicable to application scenarios such as intelligent image editing and human-computer interaction.

提供机构：

复旦大学

创建时间：

2026-01-09

原始信息汇总

GREx数据集概述

数据集名称

GREx (Generalized Referring Expression Segmentation, Comprehension, and Generation)

核心定义

GREx是三个新基准的集合，统称为广义指代表达式任务，旨在克服经典指代表达式任务（REx）的局限性。它扩展了经典的指代表达式分割（RES）、理解（REC）和生成（REG），允许表达式指示任意数量的目标对象。

包含的具体任务

广义指代表达式分割（GRES）：输入为图像和指代表达式，输出为分割掩码。
广义指代表达式理解（GREC）：输入为图像和指代表达式，输出为目标检测框。
广义指代表达式生成（GREG）：为多个选定的对象生成简洁自然的表达式。

关键扩展与特点

支持多目标表达式：允许一个表达式通过共性或关系指示多个对象（例如，基于类别、属性、计数或复合描述）。
支持无目标表达式：允许表达式不匹配图像中的任何对象。
向后兼容性：GREx和其数据集gRefCOCO被设计为与经典的REx任务向后兼容。
应用范围更广：超越了单一对象，使任务更贴近现实场景。

数据集 (gRefCOCO)

性质：第一个包含多目标、无目标和单目标表达式及其对应带标注目标图像的大规模GREx数据集。
目的：用于研究现有REx方法在GREx任务上的性能差距。
许可：采用CC-BY-NC-SA-4.0许可，仅用于非商业研究目的。
下载地址：
- Hugging Face
- Google Drive

提供的资源

基线代码与模型：
- GRES基线 (ReLA)
- GREC基线
相关论文与代码链接：
- GRES (CVPR 2023)
- MOSE
- MeViS

统计信息（页面显示数值为0，具体数量需参考实际数据）

表达式总数
多目标或无目标表达式数量
被指代的不同对象数量
高质量掩码标注数量

核心贡献团队

Henghui Ding (复旦大学)
Chang Liu (上海财经大学)
Shuting He (上海财经大学)
Xudong Jiang (南洋理工大学)
Yu-Gang Jiang (复旦大学)

引用信息

bibtex @article{GREx, title={{GREx}: Generalized Referring Expression Segmentation, Comprehension, and Generation}, author={Ding, Henghui and Liu, Chang and He, Shuting and Jiang, Xudong and Jiang, Yu-Gang}, journal={IJCV}, year={2026}, publisher={Springer} } @inproceedings{GRES, title={{GRES}: Generalized Referring Expression Segmentation}, author={Liu, Chang and Ding, Henghui and Jiang, Xudong}, booktitle={CVPR}, year={2023} }

搜集汇总

数据集介绍

构建方式

在视觉与语言交叉领域，gRefCOCO数据集的构建旨在突破传统指代表达式任务中仅支持单目标表达的局限。该数据集以广泛使用的RefCOCO为基础，通过精心设计的交互式标注流程进行扩展。标注过程中，标注者与验证者协同工作：标注者首先在给定图像中选择一组目标对象并撰写对应的指代表达式，随后验证者仅依据图像和表达式独立定位目标，若匹配成功则样本有效。这一机制确保了表达式的准确性与无歧义性。此外，数据集特意引入了多目标样本（表达式指代多个对象）和无目标样本（表达式不匹配任何对象），并遵循RefCOCO的数据划分，新增图像仅用于训练集，以避免数据泄露。

特点

gRefCOCO数据集的核心特点在于其表达式的广义性与现实性。作为首个系统支持广义指代表达式分割、理解与生成的大规模基准，它包含了25.9万条表达式，其中涵盖9万余条多目标表达式和3.4万余条无目标表达式，涉及超过6.1万个独立对象。与现有数据集相比，gRefCOCO的表达更为自由多样，不仅包含计数（如“左侧的两个人”）、复合结构（如“除白衣小孩外的所有人”），还涉及复杂的属性和关系描述。数据集提供了像素级分割掩码和边界框标注，并与RefCOCO保持向后兼容，便于评估现有方法在广义任务上的性能差距。其词汇分析显示，“和”、“两个”等关联与计数词汇出现频率显著高于传统数据集，体现了更高的语义复杂性。

使用方法

gRefCOCO数据集主要用于支撑广义指代表达式三大任务的研究。对于广义指代表达式分割（GRES）与理解（GREC），研究者可将图像和表达式作为模型输入，分别训练模型输出对应的分割掩码或一组边界框，并利用数据集提供的评估指标（如gIoU、Precision@F1）衡量性能。对于广义指代表达式生成（GREG），则输入图像及目标对象的掩码或边界框集合，训练模型生成一个能无歧义指代所有目标的自然语言表达式。使用时应严格遵循其数据划分，训练过程可仅使用训练集，并在验证集与测试集上进行评估。该数据集亦适用于探究多模态大模型在复杂指代场景下的零样本能力，或作为其他视觉语言任务（如图像编辑）的基准数据源。

背景与挑战

背景概述

在计算机视觉与自然语言处理的交叉领域，指代表达式理解与生成任务旨在建立视觉内容与语言描述之间的精准关联。传统的数据集如RefCOCO主要支持单目标表达式，即一个表达式仅指向图像中的一个对象，这限制了模型在真实复杂场景中的应用。为突破此局限，由复旦大学丁恒辉等人于2026年在《International Journal of Computer Vision》上提出的gRefCOCO数据集应运而生。该数据集作为RefCOCO的扩展，首次系统性地引入了多目标与无目标表达式，旨在推动广义指代表达式分割、理解与生成（GREx）任务的研究。gRefCOCO的构建不仅丰富了数据多样性，还为模型处理现实世界中灵活、模糊的语言指令提供了关键基准，对推动多模态感知向更实用、鲁棒的方向发展具有深远影响。

当前挑战

gRefCOCO数据集旨在解决的领域核心挑战是广义指代表达式理解与生成，即要求模型能够处理指向任意数量目标（包括零个、一个或多个）的自然语言表达式。这超越了传统单目标指代任务的范畴，对模型的复杂关系建模、细粒度属性理解及上下文推理能力提出了极高要求。在数据构建过程中，主要挑战体现在两方面：一是如何高质量地标注多目标表达式，确保其能自然、无歧义地描述一组具有逻辑关联的对象，而非随机组合；二是如何设计真实且具有挑战性的无目标表达式，避免生成与图像内容完全无关的简单负样本，从而有效评估模型拒绝错误指代的能力。此外，保持与经典数据集的向后兼容性以支持对比研究，也是构建过程中的重要考量。

常用场景

经典使用场景

在视觉与语言交叉领域，gRefCOCO数据集作为广义指代表达式理解与生成任务的核心基准，其经典使用场景聚焦于支持多目标与无目标表达式的处理。该数据集通过扩展传统RefCOCO框架，引入了涵盖单目标、多目标及无目标表达式的丰富样本，使得模型能够在一个统一框架下解析如“所有穿红衣服的人”或“除了左侧小孩外的所有人”等复杂自然语言指令，并精准定位图像中对应的多个实例或识别无匹配对象的情形。这一设计显著提升了指代表达式任务在真实场景中的适用性与鲁棒性，为多模态交互系统提供了更为自然的语言接口。

衍生相关工作

gRefCOCO数据集的推出催生了一系列围绕广义指代表达式任务的创新研究。基于该基准，学者们提出了如ReLA等基线方法，通过显式建模区域间关系与跨模态依赖来应对多目标与无目标挑战。后续工作如MABP引入自适应查询绑定机制，GSVA利用多模态大语言模型增强分割泛化能力，而GLaMM等统一框架则进一步整合了分割与描述生成任务。这些衍生研究不仅深化了对复杂视觉语言推理的理解，也推动了如InstructDiffusion等生成式模型在指令引导图像编辑中的应用，形成了从数据集构建到方法创新再到实际部署的完整研究脉络。

数据集最近研究