Visual Genome Dataset

Name: Visual Genome Dataset
Creator: Papers with Code
License: 暂无描述

paperswithcode.com2025-03-22 收录

下载链接：

https://paperswithcode.com/dataset/visual-genome

下载链接

链接失效反馈

官方服务：

资源简介：

Visual Genome contains Visual Question Answering data in a multi-choice setting. It consists of 101,174 images from MSCOCO with 1.7 million QA pairs, 17 questions per image on average. Compared to the Visual Question Answering dataset, Visual Genome represents a more balanced distribution over 6 question types: What, Where, When, Who, Why and How. The Visual Genome dataset also presents 108K images with densely annotated objects, attributes and relationships.

Visual Genome 数据集汇聚了在多选设置下的视觉问答数据。该数据集包含来自 MSCOCO 的 101,174 张图片，以及 1.7 百万对问答对，平均每张图片有 17 个问题。相较于视觉问答数据集，Visual Genome 在 6 种问题类型（何物、何地、何时、何人、何因及如何）上实现了更为均衡的分布。此外，Visual Genome 数据集还展示了 10.8 万张带有密集标注的对象、属性和关系的图片。

提供机构：

Papers with Code

搜集汇总

数据集介绍

背景与挑战

背景概述

Visual Genome Dataset是一个包含108,077张图像的大规模数据集，提供5.4百万区域描述、1.7百万视觉问答、3.8百万对象实例、2.8百万属性和2.3百万关系，旨在支持图像描述和问答等认知任务。所有注释均使用英语，适用于图像到文本、对象检测和视觉问答等任务。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集