Visual Genome Dataset
收藏paperswithcode.com2025-03-22 收录
下载链接:
https://paperswithcode.com/dataset/visual-genome
下载链接
链接失效反馈官方服务:
资源简介:
Visual Genome contains Visual Question Answering data in a multi-choice setting. It consists of 101,174 images from MSCOCO with 1.7 million QA pairs, 17 questions per image on average. Compared to the Visual Question Answering dataset, Visual Genome represents a more balanced distribution over 6 question types: What, Where, When, Who, Why and How. The Visual Genome dataset also presents 108K images with densely annotated objects, attributes and relationships.
Visual Genome 数据集汇聚了在多选设置下的视觉问答数据。该数据集包含来自 MSCOCO 的 101,174 张图片,以及 1.7 百万对问答对,平均每张图片有 17 个问题。相较于视觉问答数据集,Visual Genome 在 6 种问题类型(何物、何地、何时、何人、何因及如何)上实现了更为均衡的分布。此外,Visual Genome 数据集还展示了 10.8 万张带有密集标注的对象、属性和关系的图片。
提供机构:
Papers with Code
搜集汇总
数据集介绍

背景与挑战
背景概述
Visual Genome Dataset是一个包含108,077张图像的大规模数据集,提供5.4百万区域描述、1.7百万视觉问答、3.8百万对象实例、2.8百万属性和2.3百万关系,旨在支持图像描述和问答等认知任务。所有注释均使用英语,适用于图像到文本、对象检测和视觉问答等任务。
以上内容由遇见数据集搜集并总结生成



