Open Images dataset

github2016-10-07 更新2024-05-31 收录

下载链接：

https://github.com/obuy/dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Open Images是一个包含约900万张图片的数据集，这些图片被标注了超过6000个类别的标签。数据集分为训练集和验证集，每张图片可能有一个或多个标签，标签信息包括机器生成的和人工验证的。

Open Images is a dataset comprising approximately 9 million images, each annotated with labels spanning over 6,000 categories. The dataset is partitioned into training and validation sets, with each image potentially bearing one or multiple labels. These labels encompass both machine-generated and human-verified annotations.

创建时间：

2016-10-07

原始信息汇总

数据集概述

数据集名称： Open Images dataset

数据集大小： 约900万张图片

标签类别： 超过6000个类别

数据集组成：

训练集： 9011219张图片
验证集： 167057张图片

标签系统：

使用Freebase或Google Knowledge Graph API中的mids作为标签。
共有7844个标签，其中约6000个标签被认为是“可训练的”。

数据集文件：

images.csv： 包含图片URL、OpenImages ID、标题、作者和许可证信息。
labels.csv： 将标签与图片ID关联，并附带置信度分数。

数据集质量：

机器标注存在一定噪声，但标签频率越高，准确性通常越高。
已基于此数据集训练Inception v3模型，适用于多种深度学习应用。

许可证信息：

注释：CC BY 4.0
图片：CC BY 2.0（需用户自行验证每张图片的许可证状态）

搜集汇总

数据集介绍

构建方式

Open Images dataset 是一个包含大约900万个图片URL的数据集，这些图片被标注了超过6000个类别的标签。数据集的构建分为训练集和验证集，其中每个图片被分配了唯一的64位ID，并通过CSV文件记录了图片的URL、ID、标题、作者以及许可信息。图片标注采用了机器标注和人工标注相结合的方式，确保标注的质量和准确性。

特点

该数据集的特点在于其规模庞大，标注类别丰富，且标注数据质量较高。数据集涵盖了从机器标注到人工验证的全流程，确保了标注的可靠性。此外，每个标注都附有置信度评分，便于用户根据需要选择不同置信度的标注结果。数据集的标签使用了Freebase或Google Knowledge Graph API中的所谓mids，便于与外部知识库进行链接。

使用方法

用户可以通过下载提供的tarball文件来获取数据集，其中包含了图片URL和元数据的CSV文件，以及机器和人工标注的CSV文件。为了方便使用，数据集还提供了非官方的数据浏览器。用户可以按照提供的指南将标注数据导入PostgreSQL数据库，以便进行更高效的数据管理和查询。

背景与挑战

背景概述

Open Images dataset是由Google Inc.构建的一个包含大约900万张图片URL的数据集，这些图片被标注了超过6000个类别的标签。该数据集的构建旨在提供一个大规模、多样化且具备丰富标签的视觉数据资源，以促进计算机视觉领域的研究与应用发展。自发布以来，Open Images dataset已成为众多学术研究和工业应用的重要基础数据集，对图像识别、分类和标注等任务的算法改进和模型训练产生了显著影响。

当前挑战

尽管Open Images dataset为研究领域提供了宝贵的资源，但其构建和使用过程中也面临一些挑战。首先，数据集在标注的准确性和一致性方面存在挑战，尤其是在机器标注中可能存在噪声。其次，数据集的标签分布不均，某些标签的应用频率远高于其他标签，这可能导致模型在某些类别上表现不佳。此外，数据集在使用前需要用户自行验证图片的版权许可状态，增加了数据集应用的复杂性。

常用场景

经典使用场景

在计算机视觉领域，Open Images数据集以其丰富的标注类别和大规模的图像资源，成为图像识别和分类任务中的经典之选。该数据集通过提供近900万张图像的URL，并附有超过6000个类别的标注，使得研究者能够开展深入的对象识别研究。

衍生相关工作

基于Open Images数据集，研究者们衍生出了众多相关工作，如改进的图像标注算法、细粒度图像识别模型等。此外，该数据集还促进了诸如Inception v3模型等深度学习模型的训练与优化，推动了计算机视觉技术的进步。

数据集最近研究