GQA-Scene-Graph

Hugging Face2024-07-11 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Voxel51/GQA-Scene-Graph

下载链接

链接失效反馈

官方服务：

资源简介：

GQA-35k数据集是一个包含35000个样本的大规模视觉问答数据集，由FiftyOne平台提供。该数据集主要用于目标检测任务，每个图像都附有详细的场景图注释，描述图像中的对象、属性和关系。场景图基于Visual Genome的清洁版本，每个图像的场景图以字典形式提供，包含图像元数据、对象字典（每个对象ID映射到其名称、边界框坐标、属性和关系）以及关系（以三元组形式表示谓词和目标对象ID）。数据集由Drew Hudson和Christopher Manning精心策划，语言为英语，许可证为CC BY 4.0。

The GQA-35k dataset is a large-scale visual question answering (VQA) dataset containing 35,000 samples, provided by the FiftyOne platform. This dataset is primarily utilized for object detection tasks. Each image is accompanied by detailed scene graph annotations that describe the objects, attributes and relationships within the image. The scene graphs are based on the cleaned version of Visual Genome. The scene graph for each image is provided in dictionary format, including image metadata, an object dictionary where each object ID maps to its name, bounding box coordinates, attributes and relationships, as well as relationship triples represented by predicates and target object IDs. The dataset was meticulously curated by Drew Hudson and Christopher Manning, is available in English, and is licensed under CC BY 4.0.

创建时间：

2024-07-10

原始信息汇总

GQA-35k 数据集概述

基本信息

数据集名称: GQA-35k
样本数量: 35000
语言: 英语
任务类别: 目标检测
标签: fiftyone, image, object-detection

数据集描述

GQA-35k 是一个包含35000个样本的 FiftyOne 数据集。该数据集是 GQA (Visual Reasoning in the Real World) 数据集的一个子集，仅包含场景图注释，不包含问题。

场景图注释

每个图像都关联一个详细的场景图，描述图像中的对象、属性和关系。
场景图基于 Visual Genome 场景图的清洁版本。
每个图像的场景图以字典形式提供，包含：
- 图像元数据，如宽度、高度、位置、天气
- 对象字典，映射每个对象ID到其名称、边界框坐标、属性和关系
- 关系以三元组形式表示，指定谓词（如 "holding", "on", "left of"）和目标对象ID

数据集结构

字段	类型	描述
location	str	可选。图像的位置，例如厨房、海滩。
weather	str	可选。图像中的天气，例如晴天、多云。
objects	dict	从对象ID到对象的字典。
object	dict	图像中的视觉元素（节点）。
name	str	对象的名称，例如人、苹果或天空。
x	int	对象边界框的水平位置（左上角）。
y	int	对象边界框的垂直位置（左上角）。
w	int	对象边界框的宽度（像素）。
h	int	对象边界框的高度（像素）。
attributes	[str]	对象的所有属性列表，例如蓝色、小、跑步。
relations	[dict]	从对象发出的所有传出关系（边）的列表。
relation	dict	表示源对象和目标对象之间关系的三元组。

引用

bibtex @article{Hudson_2019, title={GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering}, ISBN={9781728132938}, url={http://dx.doi.org/10.1109/CVPR.2019.00686}, DOI={10.1109/cvpr.2019.00686}, journal={2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, publisher={IEEE}, author={Hudson, Drew A. and Manning, Christopher D.}, year={2019}, month={Jun} }

搜集汇总

数据集介绍

构建方式

GQA-Scene-Graph数据集是基于GQA（Visual Reasoning in the Real World）数据集构建的，专注于视觉问答任务中的场景图标注。该数据集包含35,000个样本，每个样本均附有详细的场景图，描述了图像中的对象、属性及其相互关系。场景图基于Visual Genome数据集的清洁版本，提供了丰富的结构化信息，包括图像元数据、对象边界框坐标、属性及对象间的关系。数据集的构建过程通过FiftyOne工具进行管理，确保了数据的高质量和易用性。

特点

GQA-Scene-Graph数据集的核心特点在于其详细的场景图标注。每个图像的场景图以字典形式呈现，包含图像元数据、对象信息及其相互关系。对象信息包括名称、边界框坐标、属性列表以及与其他对象的关系。关系以三元组形式表示，明确描述了对象间的谓词关系（如“持有”、“在...上”等）。这种结构化的标注方式为视觉推理和对象检测任务提供了强有力的支持，尤其适用于需要理解复杂场景的研究。

使用方法

使用GQA-Scene-Graph数据集时，首先需安装FiftyOne工具库。通过Python脚本导入FiftyOne及其HuggingFace工具模块，即可从HuggingFace Hub加载数据集。加载时，用户可指定最大样本数等参数。加载完成后，可通过FiftyOne的App界面直观浏览数据集内容，包括图像及其对应的场景图标注。该数据集适用于视觉问答、场景理解及对象检测等任务，为研究人员提供了丰富的实验数据。

背景与挑战

背景概述

GQA-Scene-Graph数据集由Drew Hudson和Christopher Manning于2019年创建，旨在推动视觉推理和组合问答领域的研究。该数据集基于Visual Genome的场景图，包含35,000个样本，每个样本均附有详细的场景图注释，描述了图像中的对象、属性及其相互关系。GQA-Scene-Graph的发布为计算机视觉和自然语言处理领域提供了重要的基准，特别是在视觉问答任务中，帮助研究者更好地理解图像内容并进行复杂的推理。该数据集的影响力不仅体现在其规模上，还在于其高质量的注释和广泛的应用场景。

当前挑战

GQA-Scene-Graph数据集在解决视觉推理和组合问答问题时面临多重挑战。首先，场景图的构建需要精确标注图像中的对象及其关系，这对标注的准确性和一致性提出了极高要求。其次，由于图像内容的复杂性和多样性，如何有效提取和理解场景图中的语义信息成为一大难题。此外，数据集的构建过程中还面临数据清洗和整合的挑战，特别是在将Visual Genome的场景图转化为更干净、更一致的格式时，需要大量的人工干预和算法支持。这些挑战不仅影响了数据集的构建效率，也对后续的研究和应用提出了更高的技术要求。

常用场景

经典使用场景

GQA-Scene-Graph数据集在计算机视觉领域中被广泛应用于视觉推理和场景理解任务。其包含的35,000个样本，每个样本都附带有详细的场景图注释，这些注释描述了图像中的对象、属性及其相互关系。研究人员通常利用这些场景图来训练和评估视觉问答模型，尤其是在需要理解复杂场景和对象关系的任务中。

解决学术问题

GQA-Scene-Graph数据集解决了视觉推理中的关键问题，特别是在真实世界场景中的对象检测和关系理解。通过提供丰富的场景图注释，该数据集帮助研究人员开发出能够更准确地理解图像内容的模型，从而推动了视觉问答系统的发展。此外，该数据集还为研究图像中的对象属性和关系提供了标准化的基准，促进了相关领域的学术研究。

衍生相关工作

GQA-Scene-Graph数据集衍生了许多经典的研究工作，特别是在视觉问答和场景图生成领域。例如，基于该数据集的研究提出了多种改进的视觉推理模型，如基于图神经网络的场景图生成方法和多模态融合模型。这些工作不仅提升了模型的性能，还为后续研究提供了新的思路和方法。此外，该数据集还被用于评估和比较不同视觉推理算法的效果，推动了相关技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集