ranjaykrishna/visual_genome

Name: ranjaykrishna/visual_genome
Creator: ranjaykrishna
Published: 2023-06-29 15:23:59
License: 暂无描述

Hugging Face2023-06-29 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/ranjaykrishna/visual_genome

下载链接

链接失效反馈

官方服务：

资源简介：

Visual Genome是一个数据集和知识库，旨在将结构化的图像概念与语言连接起来。它包含108,077张图像，5.4百万区域描述，1.7百万视觉问答，3.8百万对象实例，2.8百万属性和2.3百万关系。该数据集主要用于图像到文本、对象检测和视觉问答等任务，所有注释均使用英语。

提供机构：

ranjaykrishna

原始信息汇总

数据集概述

数据集基本信息

名称: VisualGenome
语言: 英语
许可证: CC BY 4.0
多语言性: 单语种
数据量: 100K<n<1M
源数据: 原始数据
任务类别:
- 图像到文本
- 目标检测
- 视觉问答
任务ID: 图像描述
PapersWithCode ID: visual-genome

数据集内容

图像: 108,077张
区域描述: 540万条
视觉问答: 170万条
对象实例: 380万条
属性: 280万条
关系: 230万条

数据结构

特征

图像: 图像数据
image_id: 图像唯一ID
url: 图像源URL
width: 图像宽度
height: 图像高度
coco_id: COCO索引ID
flickr_id: Flickr索引ID
regions: 区域列表
- region_id: 区域唯一ID
- image_id: 图像唯一ID
- phrase: 区域描述
- x: 区域左上角x坐标
- y: 区域左上角y坐标
- width: 区域宽度
- height: 区域高度

配置

配置名称: region_descriptions_v1.0.0
分割:
- train: 108077个样本

数据字段

region_descriptions:
- image: 图像数据
- image_id: 图像唯一ID
- url: 图像源URL
- width: 图像宽度
- height: 图像高度
- coco_id: COCO索引ID
- flickr_id: Flickr索引ID
- regions: 区域列表
  - region_id: 区域唯一ID
  - image_id: 图像唯一ID
  - phrase: 区域描述
  - x: 区域左上角x坐标
  - y: 区域左上角y坐标
  - width: 区域宽度
  - height: 区域高度
objects:
- image: 图像数据
- image_id: 图像唯一ID
- url: 图像源URL
- width: 图像宽度
- height: 图像高度
- coco_id: COCO索引ID
- flickr_id: Flickr索引ID
- objects: 对象列表
  - object_id: 对象唯一ID
  - x: 对象左上角x坐标
  - y: 对象左上角y坐标
  - w: 对象宽度
  - h: 对象高度
  - names: 对象名称列表
  - synsets: WordNet同义词集列表
attributes:
- image: 图像数据
- image_id: 图像唯一ID
- url: 图像源URL
- width: 图像宽度
- height: 图像高度
- coco_id: COCO索引ID
- flickr_id: Flickr索引ID
- attributes: 属性列表
  - object_id: 对象唯一ID
  - x: 对象左上角x坐标
  - y: 对象左上角y坐标
  - w: 对象宽度
  - h: 对象高度
  - names: 对象名称列表
  - synsets: WordNet同义词集列表
  - attributes: 对象属性列表
relationships:
- image: 图像数据
- image_id: 图像唯一ID
- url: 图像源URL
- width: 图像宽度
- height: 图像高度
- coco_id: COCO索引ID
- flickr_id: Flickr索引ID
- relationships: 关系列表
  - relationship_id: 关系唯一ID
  - predicate: 关系谓词
  - synsets: WordNet同义词集列表
  - subject: 主体对象
  - object: 客体对象
question_answers:
- image: 图像数据
- image_id: 图像唯一ID
- url: 图像源URL
- width: 图像宽度
- height: 图像高度
- coco_id: COCO索引ID
- flickr_id: Flickr索引ID
- qas: 问答列表
  - qa_id: 问答唯一ID
  - image_id: 图像唯一ID
  - question: 问题
  - answer: 答案
  - q_objects: 问题关联对象
  - a_objects: 答案关联对象

数据分割

train: 108077个样本

数据集创建

注释创建者: 通过Amazon Mechanical Turk收集，共有超过33,000名独特工作者参与。
注释过程: 通过AMT进行，每个HIT设计为工作者每小时赚取$6-$8，符合伦理研究标准。
注释者信息: 93.02%来自美国，年龄主要在25-34岁之间，54.15%为男性，45.85%为女性。

许可证信息

许可证: Creative Commons Attribution 4.0 International License

引用信息

bibtex @article{Krishna2016VisualGC, title={Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations}, author={Ranjay Krishna and Yuke Zhu and Oliver Groth and Justin Johnson and Kenji Hata and Joshua Kravitz and Stephanie Chen and Yannis Kalantidis and Li-Jia Li and David A. Shamma and Michael S. Bernstein and Li Fei-Fei}, journal={International Journal of Computer Vision}, year={2017}, volume={123}, pages={32-73}, url={https://doi.org/10.1007/s11263-016-0981-7}, doi={10.1007/s11263-016-0981-7} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集