five

ranjaykrishna/visual_genome

收藏
Hugging Face2023-06-29 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/ranjaykrishna/visual_genome
下载链接
链接失效反馈
官方服务:
资源简介:
Visual Genome是一个数据集和知识库,旨在将结构化的图像概念与语言连接起来。它包含108,077张图像,5.4百万区域描述,1.7百万视觉问答,3.8百万对象实例,2.8百万属性和2.3百万关系。该数据集主要用于图像到文本、对象检测和视觉问答等任务,所有注释均使用英语。
提供机构:
ranjaykrishna
原始信息汇总

数据集概述

数据集基本信息

  • 名称: VisualGenome
  • 语言: 英语
  • 许可证: CC BY 4.0
  • 多语言性: 单语种
  • 数据量: 100K<n<1M
  • 源数据: 原始数据
  • 任务类别:
    • 图像到文本
    • 目标检测
    • 视觉问答
  • 任务ID: 图像描述
  • PapersWithCode ID: visual-genome

数据集内容

  • 图像: 108,077张
  • 区域描述: 540万条
  • 视觉问答: 170万条
  • 对象实例: 380万条
  • 属性: 280万条
  • 关系: 230万条

数据结构

特征

  • 图像: 图像数据
  • image_id: 图像唯一ID
  • url: 图像源URL
  • width: 图像宽度
  • height: 图像高度
  • coco_id: COCO索引ID
  • flickr_id: Flickr索引ID
  • regions: 区域列表
    • region_id: 区域唯一ID
    • image_id: 图像唯一ID
    • phrase: 区域描述
    • x: 区域左上角x坐标
    • y: 区域左上角y坐标
    • width: 区域宽度
    • height: 区域高度

配置

  • 配置名称: region_descriptions_v1.0.0
  • 分割:
    • train: 108077个样本

数据字段

  • region_descriptions:

    • image: 图像数据
    • image_id: 图像唯一ID
    • url: 图像源URL
    • width: 图像宽度
    • height: 图像高度
    • coco_id: COCO索引ID
    • flickr_id: Flickr索引ID
    • regions: 区域列表
      • region_id: 区域唯一ID
      • image_id: 图像唯一ID
      • phrase: 区域描述
      • x: 区域左上角x坐标
      • y: 区域左上角y坐标
      • width: 区域宽度
      • height: 区域高度
  • objects:

    • image: 图像数据
    • image_id: 图像唯一ID
    • url: 图像源URL
    • width: 图像宽度
    • height: 图像高度
    • coco_id: COCO索引ID
    • flickr_id: Flickr索引ID
    • objects: 对象列表
      • object_id: 对象唯一ID
      • x: 对象左上角x坐标
      • y: 对象左上角y坐标
      • w: 对象宽度
      • h: 对象高度
      • names: 对象名称列表
      • synsets: WordNet同义词集列表
  • attributes:

    • image: 图像数据
    • image_id: 图像唯一ID
    • url: 图像源URL
    • width: 图像宽度
    • height: 图像高度
    • coco_id: COCO索引ID
    • flickr_id: Flickr索引ID
    • attributes: 属性列表
      • object_id: 对象唯一ID
      • x: 对象左上角x坐标
      • y: 对象左上角y坐标
      • w: 对象宽度
      • h: 对象高度
      • names: 对象名称列表
      • synsets: WordNet同义词集列表
      • attributes: 对象属性列表
  • relationships:

    • image: 图像数据
    • image_id: 图像唯一ID
    • url: 图像源URL
    • width: 图像宽度
    • height: 图像高度
    • coco_id: COCO索引ID
    • flickr_id: Flickr索引ID
    • relationships: 关系列表
      • relationship_id: 关系唯一ID
      • predicate: 关系谓词
      • synsets: WordNet同义词集列表
      • subject: 主体对象
      • object: 客体对象
  • question_answers:

    • image: 图像数据
    • image_id: 图像唯一ID
    • url: 图像源URL
    • width: 图像宽度
    • height: 图像高度
    • coco_id: COCO索引ID
    • flickr_id: Flickr索引ID
    • qas: 问答列表
      • qa_id: 问答唯一ID
      • image_id: 图像唯一ID
      • question: 问题
      • answer: 答案
      • q_objects: 问题关联对象
      • a_objects: 答案关联对象

数据分割

  • train: 108077个样本

数据集创建

  • 注释创建者: 通过Amazon Mechanical Turk收集,共有超过33,000名独特工作者参与。
  • 注释过程: 通过AMT进行,每个HIT设计为工作者每小时赚取$6-$8,符合伦理研究标准。
  • 注释者信息: 93.02%来自美国,年龄主要在25-34岁之间,54.15%为男性,45.85%为女性。

许可证信息

  • 许可证: Creative Commons Attribution 4.0 International License

引用信息

bibtex @article{Krishna2016VisualGC, title={Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations}, author={Ranjay Krishna and Yuke Zhu and Oliver Groth and Justin Johnson and Kenji Hata and Joshua Kravitz and Stephanie Chen and Yannis Kalantidis and Li-Jia Li and David A. Shamma and Michael S. Bernstein and Li Fei-Fei}, journal={International Journal of Computer Vision}, year={2017}, volume={123}, pages={32-73}, url={https://doi.org/10.1007/s11263-016-0981-7}, doi={10.1007/s11263-016-0981-7} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作