Visual Genome 图像及图像内容语义信息的数据集

Name: Visual Genome 图像及图像内容语义信息的数据集
Creator: 帕依提提
License: 暂无描述

帕依提提2024-03-04 收录

下载链接：

https://www.payititi.com/opendatasets/show-26420.html

下载链接

链接失效反馈

官方服务：

资源简介：

Visual Genome是一个数据集，一个知识库，一个将结构化图像概念连接到语言的持续努力。 Visual Genome 数据集是Stanford 大学维护的图像及图像内容语义信息的数据集，相比于著名的 ImageNet 图像标注数据集（也由Stanford大学维护），Visual Genome 附加了更为丰富的语义信息，用以拓展更加丰富的基于图像及语义信息的人工智能应用。目前包括108249 张图片、420 万区域内容描述（Region Descriptions）、170 万图像内容问答（Visual Question Answers）、210 万对象案例（Object Instances）、180 万属性（Attributes）、180 万关系（Relationships）。 Visual Genome 数据集总览：数据集主要包括七个主要部分：数据集标注了图片的 regions descriptions，每个 region 有一个 bounding box. 如上图中，图片有三个 regions descriptions： “man jumping over a fire hydrant,”，“yellow fire hydrant,” 和 “woman in shorts is standing behind the man.”. 数据集中每张图片平均有 35 个 objects，每个 object 采用 bounding box 标注. 如图： MS-COCO 数据集只标注了 80 个 object categories，没有描述图片中的所有 objects. 实际场景中，可能有更多的 objects 类别. Visual Genome 数据集旨在对图片里出现的所有视觉 objects 进行标注，objects categories 类别达到 33877 种. 数据集中每张图片平均有 26 个 attributes. Objects 可能没有或者有更多的相关 attributes. Attributes 可以是 color(如 yellow)，states(如 standing) 等，如图： Attributes 能够对 objects 进行更容易的描述、对比与分类. 即使以前未见到某 object，根据 attributes 仍能推断出与 object 相关的东西. 如，“yellow and brown spotted with long neck(长脖子上有黄色和棕色的斑点)”，很可能推断出 object 是 giraffe(长颈鹿). 关于 attributes 的研究： Attributes 一般被定义为 parts(如 has legs)、shapes(如，spherical球形的)、materials(如 furry毛皮的)；用于对新的 objects 类别进行分类. Visual Genome 数据集对于 attributes 进行扩展，其 attributes 不是 image-specific 的，而是真实场景中 object-specific 的. attributes 类型包括：size(如 small), pose(如bent), state (如 transparent), emotion (如 happy)等等. Relationships 是两个 objects 的连接关系. Relationships 可以是 actions(如 jumping over)，spatial(如 is build)，comparative(如 taller than)，prepositional phrases (如 drive on). 如图：结合 objects、attributes 以及 region descriptions 提取的 relationships，创建每个 regions 的 graph representation. Region graphs 是图片的局部区域表示，将 region graphs 结合，生成单个 scene graph来表示整张图片. Scene graph 是全部 region graphs 的统一，包含了全部的 objects、attributes以及每个 region description 的 relationships. Scene Graph 将多种不同层次的 scene 信息以更加一致的方式结合在一起. 数据集中每张图片有两种类型的 QA pairs：每张图片标注了 6 中不同类型的问题：what, where, how, when, who, why. 如图： Figure . Visual Genome 数据集. 每张图片包括：region descriptions - 描述了图像的局部信息；两种类型的 question answer pairs(QAs) - free form QAs 和 region-based QAs. 每个 region 转化为 objects、attributes 和 pairwise relationships region 构成的 region graph 表示. 最终，结合 region graphs 以形成图片内全部 objects 的 scene graph. 基本应用：更多应用：注 - 与其它数据集对比： [1] - Visual Genome Home [1] - Visual Genome Doc [2] - Scene Graph Generation by Iterative Message Passing

视觉基因组（Visual Genome）是一个兼具数据集、知识库属性，并持续致力于将结构化图像概念与语言相连接的研究项目。视觉基因组数据集是由斯坦福大学维护的图像及图像内容语义信息数据集，相较于知名的ImageNet图像标注数据集（同样由斯坦福大学维护），视觉基因组附加了更为丰富的语义信息，可用于拓展基于图像及语义信息的各类人工智能应用。目前该数据集包含108249张图像、420万区域描述（Region Descriptions）、170万视觉问答（Visual Question Answers）、210万对象实例（Object Instances）、180万属性（Attributes）以及180万关系（Relationships）。视觉基因组数据集总览：数据集主要包含七个核心模块：数据集标注了图像的区域描述（Region Descriptions），每个区域均配有边界框（bounding box）。例如示例图像包含三条区域描述："男子跃过消防栓"、"黄色消防栓"以及"穿短裤的女子站在男子身后"。数据集中每张图像平均包含35个标注对象，每个对象均通过边界框标注。 MS-COCO（MS-COCO）数据集仅标注了80个对象类别，无法覆盖图像中的全部对象，而实际场景中存在远超该数量的对象类别。视觉基因组数据集旨在标注图像中出现的所有视觉对象，其对象类别多达33877种。数据集中每张图像平均包含26个属性（Attributes）标注，对象可关联零个或多个相关属性。属性可涵盖颜色（如黄色）、状态（如站立）等，如图所示。属性能够简化对象的描述、对比与分类流程，即便面对未曾见过的对象，也可通过其属性推断相关特征。例如"带有黄色和棕色斑点、长脖子的物体"，可大概率推断该对象为长颈鹿。现有属性研究通常将其定义为部件（如具有腿部）、形状（如球形）、材质（如毛绒质感）等，用于实现对新对象类别的分类。视觉基因组对属性体系进行了扩展，其属性并非图像专属，而是针对特定对象的通用属性，涵盖尺寸（如小型）、姿态（如弯曲）、状态（如透明）、情绪（如愉悦）等类型。关系（Relationships）指两个对象间的关联连接，可包括动作（如跃过）、空间关系（如坐落于）、比较关系（如比……更高）以及介词短语关联（如行驶于）等，如图所示。结合对象、属性与区域描述提取的关系，可构建每个区域的图结构表示（graph representation）。区域图（Region graphs）作为图像局部区域的结构化表示，将所有区域图整合后，可生成用于描述整幅图像的场景图（Scene Graph）。场景图是所有区域图的统一集合，囊括了全部对象、属性以及每个区域描述对应的关系，以统一的形式整合了多维度的场景信息。数据集中每张图像包含两类问答对（QA pairs）：每张图像标注了6种不同类型的问题，即是什么、在哪里、如何、何时、是谁、为什么，如图所示。图. 视觉基因组数据集。单幅图像包含：区域描述——用于刻画图像局部信息；两类问答对（QA pairs）——自由格式问答（free form QAs）与区域关联问答（region-based QAs）。每个区域可转化为由对象、属性及成对区域关系构成的区域图表示，最终通过整合所有区域图得到覆盖整幅图像所有对象的场景图。基本应用：更多应用：注 —— 与其他数据集对比： [1] - Visual Genome Home [1] - Visual Genome Doc [2] - Scene Graph Generation by Iterative Message Passing

提供机构：

帕依提提

搜集汇总

数据集介绍

背景与挑战

背景概述

Visual Genome是由斯坦福大学维护的图像及语义信息数据集，包含108,077张图片，并提供了丰富的标注，如420万区域描述、170万问答对和380万对象实例。该数据集以附加详细语义信息为特点，支持图像理解、视觉问答和关系提取等人工智能应用。

以上内容由遇见数据集搜集并总结生成