five

Visual Genome Dataset

收藏
paperswithcode.com2025-03-22 收录
下载链接:
https://paperswithcode.com/dataset/visual-genome
下载链接
链接失效反馈
官方服务:
资源简介:
Visual Genome contains Visual Question Answering data in a multi-choice setting. It consists of 101,174 images from MSCOCO with 1.7 million QA pairs, 17 questions per image on average. Compared to the Visual Question Answering dataset, Visual Genome represents a more balanced distribution over 6 question types: What, Where, When, Who, Why and How. The Visual Genome dataset also presents 108K images with densely annotated objects, attributes and relationships.

Visual Genome 数据集汇聚了在多选设置下的视觉问答数据。该数据集包含来自 MSCOCO 的 101,174 张图片,以及 1.7 百万对问答对,平均每张图片有 17 个问题。相较于视觉问答数据集,Visual Genome 在 6 种问题类型(何物、何地、何时、何人、何因及如何)上实现了更为均衡的分布。此外,Visual Genome 数据集还展示了 10.8 万张带有密集标注的对象、属性和关系的图片。
提供机构:
Papers with Code
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Visual Genome Dataset是一个包含108,077张图像的大规模数据集,提供5.4百万区域描述、1.7百万视觉问答、3.8百万对象实例、2.8百万属性和2.3百万关系,旨在支持图像描述和问答等认知任务。所有注释均使用英语,适用于图像到文本、对象检测和视觉问答等任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作