ranjaykrishna/visual_genome
收藏Hugging Face2023-06-29 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/ranjaykrishna/visual_genome
下载链接
链接失效反馈官方服务:
资源简介:
Visual Genome是一个数据集和知识库,旨在将结构化的图像概念与语言连接起来。它包含108,077张图像,5.4百万区域描述,1.7百万视觉问答,3.8百万对象实例,2.8百万属性和2.3百万关系。该数据集主要用于图像到文本、对象检测和视觉问答等任务,所有注释均使用英语。
提供机构:
ranjaykrishna
原始信息汇总
数据集概述
数据集基本信息
- 名称: VisualGenome
- 语言: 英语
- 许可证: CC BY 4.0
- 多语言性: 单语种
- 数据量: 100K<n<1M
- 源数据: 原始数据
- 任务类别:
- 图像到文本
- 目标检测
- 视觉问答
- 任务ID: 图像描述
- PapersWithCode ID: visual-genome
数据集内容
- 图像: 108,077张
- 区域描述: 540万条
- 视觉问答: 170万条
- 对象实例: 380万条
- 属性: 280万条
- 关系: 230万条
数据结构
特征
- 图像: 图像数据
- image_id: 图像唯一ID
- url: 图像源URL
- width: 图像宽度
- height: 图像高度
- coco_id: COCO索引ID
- flickr_id: Flickr索引ID
- regions: 区域列表
- region_id: 区域唯一ID
- image_id: 图像唯一ID
- phrase: 区域描述
- x: 区域左上角x坐标
- y: 区域左上角y坐标
- width: 区域宽度
- height: 区域高度
配置
- 配置名称: region_descriptions_v1.0.0
- 分割:
- train: 108077个样本
数据字段
-
region_descriptions:
- image: 图像数据
- image_id: 图像唯一ID
- url: 图像源URL
- width: 图像宽度
- height: 图像高度
- coco_id: COCO索引ID
- flickr_id: Flickr索引ID
- regions: 区域列表
- region_id: 区域唯一ID
- image_id: 图像唯一ID
- phrase: 区域描述
- x: 区域左上角x坐标
- y: 区域左上角y坐标
- width: 区域宽度
- height: 区域高度
-
objects:
- image: 图像数据
- image_id: 图像唯一ID
- url: 图像源URL
- width: 图像宽度
- height: 图像高度
- coco_id: COCO索引ID
- flickr_id: Flickr索引ID
- objects: 对象列表
- object_id: 对象唯一ID
- x: 对象左上角x坐标
- y: 对象左上角y坐标
- w: 对象宽度
- h: 对象高度
- names: 对象名称列表
- synsets: WordNet同义词集列表
-
attributes:
- image: 图像数据
- image_id: 图像唯一ID
- url: 图像源URL
- width: 图像宽度
- height: 图像高度
- coco_id: COCO索引ID
- flickr_id: Flickr索引ID
- attributes: 属性列表
- object_id: 对象唯一ID
- x: 对象左上角x坐标
- y: 对象左上角y坐标
- w: 对象宽度
- h: 对象高度
- names: 对象名称列表
- synsets: WordNet同义词集列表
- attributes: 对象属性列表
-
relationships:
- image: 图像数据
- image_id: 图像唯一ID
- url: 图像源URL
- width: 图像宽度
- height: 图像高度
- coco_id: COCO索引ID
- flickr_id: Flickr索引ID
- relationships: 关系列表
- relationship_id: 关系唯一ID
- predicate: 关系谓词
- synsets: WordNet同义词集列表
- subject: 主体对象
- object: 客体对象
-
question_answers:
- image: 图像数据
- image_id: 图像唯一ID
- url: 图像源URL
- width: 图像宽度
- height: 图像高度
- coco_id: COCO索引ID
- flickr_id: Flickr索引ID
- qas: 问答列表
- qa_id: 问答唯一ID
- image_id: 图像唯一ID
- question: 问题
- answer: 答案
- q_objects: 问题关联对象
- a_objects: 答案关联对象
数据分割
- train: 108077个样本
数据集创建
- 注释创建者: 通过Amazon Mechanical Turk收集,共有超过33,000名独特工作者参与。
- 注释过程: 通过AMT进行,每个HIT设计为工作者每小时赚取$6-$8,符合伦理研究标准。
- 注释者信息: 93.02%来自美国,年龄主要在25-34岁之间,54.15%为男性,45.85%为女性。
许可证信息
- 许可证: Creative Commons Attribution 4.0 International License
引用信息
bibtex @article{Krishna2016VisualGC, title={Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations}, author={Ranjay Krishna and Yuke Zhu and Oliver Groth and Justin Johnson and Kenji Hata and Joshua Kravitz and Stephanie Chen and Yannis Kalantidis and Li-Jia Li and David A. Shamma and Michael S. Bernstein and Li Fei-Fei}, journal={International Journal of Computer Vision}, year={2017}, volume={123}, pages={32-73}, url={https://doi.org/10.1007/s11263-016-0981-7}, doi={10.1007/s11263-016-0981-7} }



