CresCat01/RefCOCO-Triplets

Name: CresCat01/RefCOCO-Triplets
Creator: CresCat01
Published: 2024-06-21 16:43:09
License: 暂无描述

Hugging Face2024-06-21 更新2024-06-25 收录

下载链接：

https://hf-mirror.com/datasets/CresCat01/RefCOCO-Triplets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含通过使用ChatGPT将RefCOCO/+/g数据集的指代表达式（描述）分解为三元组（主语、谓语、宾语）生成的注释。这些三元组用于表示描述中的关系、动作和空间位置，有助于视觉关系的建模。数据集的结构以JSON格式呈现，每个条目包含图像文件名和句子ID，以及实体和关系的详细信息。数据集的创建代码和提示可以在GitHub仓库中找到。

The RefCOCO Triplets dataset contains annotations derived from using ChatGPT to decompose the referring expressions (captions) of the RefCOCO/+/g dataset into triples (subject, predicate, object). These triples represent the relationships, actions, and spatial positions between the subjects and predicates in the captions. The dataset is curated by Zeyu Han, uses English, and is released under the cc-by-4.0 license. The dataset structure follows the data format from ReCLIP, with each entry containing the image file name and sentence ID, as well as the main participant of the event and its relations.

提供机构：

CresCat01

原始信息汇总

数据集卡片 RefCOCO Triplets

数据集概述

该数据集包含使用ChatGPT从RefCOCO/+/g数据集的引用表达（字幕）中分解出的三元组（主体，谓词，对象）的注释。

数据集详情

数据集描述

创建者： Zeyu Han
语言： 英语
许可证： cc-by-4.0

数据集来源

仓库： https://github.com/Show-han/Zeroshot_REC
论文： Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions

用途

理解视觉关系对于解决引用表达理解至关重要。该数据集使用ChatGPT注释RefCOCO/+/g的字幕，将其分解为多个（主体，谓词，对象）三元组。这些三元组表示字幕中主体和谓词（如果有）之间的关系、动作和空间位置。这些信息可用于后续的视觉关系建模。

数据集结构

数据集字段描述如下：

json {"<image_file_name>_<sentence_id>": {"entity": "<main participant of the event>", "relations": [[<subject>, <predicate>, <object>]]}}

<image_file_name>_<sentence_id>遵循ReCLIP的数据格式。

数据集创建

我们在GitHub仓库中提供了使用ChatGPT生成注释的代码和提示。

引用

如果您发现此数据集有用，请引用以下论文：

bibtex @inproceedings{han2024zero, title={Zero-shot referring expression comprehension via structural similarity between images and captions}, author={Han, Zeyu and Zhu, Fangrui and Lao, Qianru and Jiang, Huaizu}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, pages={14364--14374}, year={2024} }

数据集卡片联系

电子邮件：Zeyu Han

搜集汇总

数据集介绍

构建方式

在视觉语言理解领域，精准解析图像与文本间的复杂关系是核心挑战之一。RefCOCO-Triplets数据集通过引入大型语言模型ChatGPT，对RefCOCO/+/g数据集的指代表达式进行结构化分解，将其转化为（主体、谓词、客体）三元组形式。这一构建过程利用自动化标注技术，将自然语言描述中的实体、动作及空间关系系统性地提取并组织，从而生成富含语义层次的结构化标注，为视觉关系建模提供了细粒度的数据基础。

特点

该数据集的核心特点在于其高度结构化的三元组标注体系，能够清晰呈现指代表达式中隐含的视觉关系与语义逻辑。每个三元组精准捕捉了图像中主体与客体之间的交互模式或空间配置，有效弥补了传统边界框标注在关系表征上的不足。此外，数据集严格遵循RefCOCO/+/g的原始数据格式，确保了与现有视觉语言任务的兼容性，同时通过引入谓词维度拓展了关系理解的深度，为跨模态推理研究提供了新颖而丰富的资源。

使用方法

研究者在应用该数据集时，可将其三元组标注作为监督信号，训练或评估视觉关系理解模型。具体而言，三元组结构能够支持模型学习图像区域与文本片段之间的细粒度对齐，进而实现零样本或小样本下的指代表达式理解任务。用户可通过提供的代码与提示词复现标注生成流程，亦能直接加载预处理的JSON文件，将其融入多模态架构中以增强关系推理能力，推动视觉语言交互技术向更精准、可解释的方向发展。

背景与挑战

背景概述

在计算机视觉与自然语言处理的交叉领域，指代表达理解旨在通过自然语言描述精准定位图像中的特定目标，是视觉语言理解的核心任务之一。RefCOCO-Triplets数据集由Zeyu Han等人于2024年构建，其基于经典的RefCOCO/+/g数据集，利用ChatGPT对原始指代表达进行结构化分解，生成（主体、谓词、客体）三元组标注。这一创新工作源自CVPR 2024发表的论文《Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions》，旨在通过揭示图像与文本之间的结构相似性，推动零样本指代表达理解的发展，为视觉关系建模提供了更细粒度的语义基础。

当前挑战

指代表达理解任务本身面临诸多挑战，例如表达中常包含复杂的空间关系、属性修饰及多实体交互，要求模型具备深层次的跨模态对齐与推理能力。RefCOCO-Triplets数据集的构建过程亦存在显著难点：依赖大语言模型ChatGPT进行自动化标注时，需精心设计提示策略以确保三元组分解的准确性与一致性；同时，如何处理原始指代表达中的模糊性、歧义性以及隐含关系，避免生成噪声或遗漏关键语义成分，是保障数据质量的关键。这些挑战共同凸显了在视觉语言理解中实现精确结构化表征的复杂性。

常用场景

经典使用场景

在视觉语言理解领域，RefCOCO-Triplets数据集通过将指代表达式分解为（主体、谓词、客体）三元组，为模型提供了结构化语义信息。这一方法使得研究者能够深入探索图像中对象间的关系、动作及空间位置，从而推动零样本指代表达式理解任务的发展。数据集基于RefCOCO/+/g的标注，利用ChatGPT自动生成三元组，为视觉关系建模提供了丰富且细粒度的训练与评估资源。

解决学术问题

该数据集主要解决了视觉语言交互中零样本指代表达式理解的挑战，即模型在未见过的对象或场景下仍能准确关联文本描述与图像区域。通过结构化三元组标注，它促进了图像与文本间结构相似性的建模，减少了传统方法对大量标注数据的依赖。这一进展不仅提升了模型的泛化能力，还为跨模态对齐研究提供了新的理论框架，推动了计算机视觉与自然语言处理的融合。

衍生相关工作

基于RefCOCO-Triplets，相关研究已衍生出多项经典工作，例如原论文提出的零样本指代表达式理解模型，利用三元组结构相似性实现跨模态对齐。后续工作进一步探索了多模态预训练方法，将三元组融入视觉语言模型的架构中，以提升关系推理能力。这些研究不仅扩展了数据集的应用范围，还为视觉关系检测和场景图生成等领域提供了新的技术路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集