Open Images dataset

github2016-10-09 更新2024-05-31 收录

下载链接：

https://github.com/shivajid/dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Open Images是一个包含约900万张图片的数据集，这些图片被标注了超过6000个类别的标签。数据集分为训练集和验证集，每张图片可能有一个或多个标签，标签信息来源于Freebase或Google Knowledge Graph API。

Open Images is a dataset comprising approximately 9 million images, each annotated with labels from over 6,000 categories. The dataset is divided into training and validation sets, with each image potentially bearing one or multiple labels. The label information is sourced from Freebase or the Google Knowledge Graph API.

创建时间：

2016-10-09

原始信息汇总

数据集概述

数据集名称

Open Images dataset

数据集大小

约900万张图片

标签类别

超过6000个类别

数据集内容

图片URL：数据集包含图片的URL链接。
标签：每张图片可能被分配零个、一个或多个图像级标签。
标签类型：标签为所谓的mids，源自Freebase或Google Knowledge Graph API。
标签描述：每个标签的简短描述可在dict.csv文件中找到。
标签数量：共有7844个不同的标签，其中约6000个标签被认为是“可训练的”。

数据集组织

ID分配：每张图片有一个唯一的64位ID。
数据分割：数据集分为训练集（9011219张图片）和验证集（167057张图片）。
注释类型：训练集和验证集都有机器生成的注释，验证集还有人工注释。

数据集文件

images.csv：包含图片URL、OpenImages ID、标题、作者和许可证信息。
labels.csv：将标签附加到图片ID，并包含每个标签的置信度。

数据集质量

标签分布：标签分布非常不均匀，某些标签关联的图片超过一百万张，而其他标签关联的图片少于100张。
注释准确性：机器注释存在一定的噪声，但通常情况下，关联更多图片的标签更准确。

数据集应用

已基于Open Images annotations训练了Inception v3模型，该模型适用于微调应用以及其他需要良好开发的过滤器层次结构的应用，如DeepDream或艺术风格转移。

搜集汇总

数据集介绍

构建方式

Open Images dataset 是由Google构建的一个大规模图像数据集，其通过从互联网上搜集约900万个图像URL，并对这些图像进行标注，标注涵盖了6000多个类别。数据集的构建分为训练集和验证集，每个图像都会被分配一个唯一的64位ID，并伴有零个或多个图像级别的标签。标注由机器完成，并由人工进行验证以提高准确性。

特点

该数据集的特点在于其规模宏大，类别丰富，且拥有详细的图像级别的标注信息。所有标注均遵循CC BY 4.0协议，图像则遵循CC BY 2.0协议。数据集的标签使用mid表示，可在Freebase或Google Knowledge Graph API中找到。此外，每个标注都有一个从0.0到1.0的置信度分数，以表示标注的可靠性。

使用方法

用户可以通过下载提供的tar包来获取数据，其中包括图像URL和元数据，以及机器和人工的图像级别标注信息。数据以CSV文件的形式组织，包括图像信息和标签信息。用户可以根据自己的需要将这些数据导入PostgreSQL数据库，或通过提供的非官方数据集查看器进行可视化。

背景与挑战

背景概述

Open Images数据集，由Google Inc.创建于2016年，旨在为研究人员提供一个包含丰富标签的图像数据集。该数据集包含了近900万张图像的URL链接，图像被标注了超过6000个类别的标签。Open Images数据集的创建，为计算机视觉领域，尤其是图像识别与分类研究，提供了宝贵的资源。该数据集的注释部分遵循CC BY 4.0许可证，图像部分遵循CC BY 2.0许可证。此数据集的推出，对于促进图像识别技术的进步及相关应用的发展具有重要影响力。

当前挑战

Open Images数据集在构建过程中及当前应用中面临多项挑战。首先，图像标注的准确性和一致性是主要问题之一，尽管通过人工验证减少了错误标注，但数据集中的标注噪声仍需关注。其次，数据集标注分布不均，某些标签的图像数量远多于其他标签，这对模型的泛化能力提出了挑战。再者，数据集的版权问题亦是一个不容忽视的挑战，尽管尝试标识了遵循Creative Commons许可证的图像，但仍需用户自行验证每个图像的版权状态。这些挑战对研究人员提出了更高的要求，以确保研究结果的准确性和可靠性。

常用场景

经典使用场景

在计算机视觉与机器学习领域中，Open Images dataset以其丰富的标注图像资源成为图像识别与分类任务的重要基准数据集。该数据集广泛用于训练深度学习模型，以实现对图像内容的精准识别。

衍生相关工作

基于Open Images dataset，研究者们衍生出了一系列相关工作，包括但不限于改进的图像标注算法、高效的图像分类模型，以及针对特定领域如自动驾驶的图像识别系统优化研究。

数据集最近研究