Open Images dataset

github2016-12-24 更新2024-05-31 收录

下载链接：

https://github.com/ShuaiW/dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Open Images是一个包含约900万张图片URL的数据集，这些图片被标注了超过6000个类别的标签。数据集分为训练集和验证集，每张图片都有唯一的64位ID，并可能有一个或多个标签。标签信息包括机器生成的和人工验证的，用于机器学习和图像识别等任务。

Open Images is a dataset comprising approximately 9 million image URLs, each annotated with labels spanning over 6,000 categories. The dataset is partitioned into training and validation sets, with each image assigned a unique 64-bit ID and potentially bearing one or more labels. The label information includes both machine-generated and human-verified annotations, serving purposes such as machine learning and image recognition tasks.

创建时间：

2016-10-02

原始信息汇总

Open Images 数据集概述

数据集描述

规模: 约900万张图片的URL。
标签: 包含超过6000个类别。
标签类型: 使用Freebase或Google Knowledge Graph API中的mid格式。
标签数量: 7844个不同标签，其中约6000个标签被认为是可训练的。

数据集组织

ID系统: 每张图片有一个唯一的64位ID，以零填充的十六进制整数表示。
数据分割: 分为训练集（9011219张图片）和验证集（167057张图片）。
标签分配: 每张图片可能有一个或多个标签。
注释类型: 训练集和验证集都有机器生成的注释，验证集还有人工注释。
注释质量: 人工注释为确定性（1.0或0.0），机器注释有从0.0到1.0的置信度分数。

数据下载

图像URL和元数据: 654 MB
机器图像级注释: 330 MB
人工图像级注释: 7 MB

数据文件结构

images.csv: 包含图像URL、OpenImages ID、标题、作者和许可证信息。
labels.csv: 将标签与图像ID关联，每个标签附带置信度分数。

数据质量与统计

标签分布: 高度不均匀，某些标签关联超过百万张图片，而其他标签关联少于100张。
注释准确性: 机器注释存在噪声，但标签关联的图片越多，通常越准确。

模型训练

已基于Open Images注释训练Inception v3模型，适用于微调和艺术风格转换等应用。

搜集汇总

数据集介绍

构建方式

Open Images dataset 的构建基于大规模图像URLs的收集，这些图像被标注了超过6000个类别的标签。数据集分为训练集和验证集，每个图像都被分配了一个唯一的64位ID。图像的标注使用了所谓的mids，这些mids可以在Freebase或Google Knowledge Graph API中找到。构建过程中，人工标注用于验证机器标注，从而在实际中消除了验证集中的假阳性（但不是假阴性）。

使用方法

用户可以通过下载提供的tar包来获取数据，其中包含了图像URLs和元数据的CSV文件，以及机器和人工的图像级标注。每个图像ID都与其标签和置信度相关联，可以通过dict.csv文件将标签的MID转换为简短描述。该数据集适用于训练机器学习模型，尤其是那些需要图像标注和分类的模型。

背景与挑战

背景概述

Open Images数据集，由Google Inc.于2016年推出，是一个包含约900万个图片URL的庞大数据库，这些图片被标注了超过6000个类别的标签。该数据集的创建旨在为机器学习和计算机视觉研究提供一个多样化的视觉数据资源，其注释数据在CC BY 4.0许可下提供，图片则遵循CC BY 2.0许可。该数据集的构建，不仅丰富了图像识别领域的数据资源，也为相关研究提供了强有力的基础，对深度学习模型训练、图像分类与识别等领域产生了深远影响。

当前挑战

尽管Open Images数据集在图像识别领域具有重要价值，但研究者和使用者也面临一些挑战。首先，数据集标注的质量与一致性是构建过程中的一个挑战，尽管通过人工验证提高了验证集中的标注质量，但仍存在一定噪音。其次，数据集标签分布不均，部分标签的图像数量远超其他标签，这对模型的泛化能力提出了挑战。此外，数据集在版权标识上存在不确定性，使用者在采用数据集时需自行验证每张图片的版权状态，以免引起法律问题。

常用场景

经典使用场景

在计算机视觉研究领域，Open Images dataset以其庞大的图像数量和丰富的标签种类，成为图像识别任务中的经典数据集。学者们通常利用该数据集进行深度学习模型的训练与验证，以提高模型对图像内容的识别和理解能力。

解决学术问题

Open Images dataset解决了图像识别领域中的标注数据不足和标签多样性有限的问题，使得研究者可以在更广泛的主题上进行模型的训练和评估，进而提升模型对不同场景的泛化能力。

实际应用

实际应用中，Open Images dataset的图像和标注信息被广泛用于开发图像识别算法，如自动驾驶系统中的物体识别、智能监控系统中的异常检测等。

数据集最近研究