Open Images dataset

github2019-05-13 更新2024-05-31 收录

下载链接：

https://github.com/xingyizhou/dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Open Images是一个包含约900万张图片的数据集，这些图片被标注了超过6000个类别的标签。数据集的标注由Google Inc.授权，使用CC BY 4.0许可证，而本仓库内容则使用Apache 2许可证发布。

Open Images is a dataset comprising approximately 9 million images, each annotated with labels across over 6,000 categories. The annotations for this dataset are authorized by Google Inc. and are available under the CC BY 4.0 license, while the contents of this repository are released under the Apache 2 license.

创建时间：

2016-12-22

原始信息汇总

数据集概述

名称： Open Images dataset

描述： Open Images是一个包含约900万张图片的数据集，这些图片被标注了超过6000个类别的标签。

数据集内容：

图片数量： 约900万张
标签类别： 超过6000个
数据分割： 训练集（9011219张图片）和验证集（167057张图片）
标签类型： 机器标注和人工标注（仅验证集）

数据集组织：

图片ID： 每个图片有一个唯一的64位ID
标签描述： 标签为Freebase或Google Knowledge Graph API中的mids，详细描述可在dict.csv中找到
标注信息： 每个标注有一个从0.0到1.0的置信度分数

数据集文件：

images.csv： 包含图片URL、ID、标题、作者和许可证信息
labels.csv： 将标签与图片ID关联，包含标签名称和置信度

许可证信息：

图片许可证： CC BY 2.0
数据集许可证： Apache 2

数据集下载：

图片URL和元数据： 链接
机器图像级标注（训练和验证集）： 链接
人工图像级标注（验证集）： 链接

数据集使用：

适用于大规模多标签和多类图像分类任务
可用于模型训练和验证，以及如DeepDream和艺术风格转移等应用

引用信息：

APA风格： Krasin I., Duerig T., Alldrin N., Veit A., Abu-El-Haija S., Belongie S., Cai D., Feng Z., Ferrari V., Gomes V., Gupta A., Narayanan D., Sun C., Chechik G, Murphy K. OpenImages: A public dataset for large-scale multi-label and multi-class image classification, 2016. Available from https://github.com/openimages.
BibTeX： 见原文

数据集统计和质量

标签分布： 标签分布不均，某些标签关联超过百万张图片，而其他标签关联少于100张
标注准确性： 机器标注存在一定噪声，但标签关联的图片越多，标注越准确

数据集改进计划

计划在未来几个月内提高Open Images数据集的标注质量，从而提升可训练模型的质量。

搜集汇总

数据集介绍

构建方式

Open Images数据集的构建采取了对大约900万张图片进行标注的方式，这些图片的标签涵盖了6000多个类别。图片被分配了唯一的64位ID，并通过CSV文件进行组织，其中既包含了机器生成的标注，也包含了验证集的人类标注，以便于对机器标注进行验证。

特点

该数据集的特点在于其规模宏大，标签类别丰富，并且提供了机器和人类两种标注形式。此外，数据集还提供了预训练的Inception v3模型，以及通过BigQuery进行标注查询的功能。每个标注都附带了一个介于0.0到1.0之间的置信度数值，其中人类标注是确定的，而机器标注则具有分数形式的置信度。

使用方法

使用Open Images数据集时，用户可以从提供的URL下载图片及其元数据和标注信息。数据集被分为训练集和验证集，用户可以导入PostgreSQL数据库以方便查询。对于图像的获取，既可以直接使用原始URL，也可以使用提供的缩略图URL。在使用前，用户应自行验证每张图片的版权许可状态。

背景与挑战

背景概述

Open Images数据集是由Google Inc.创建的一个包含约900万个图像URL的公共数据集，这些图像被标注了超过6000个类别的标签。该数据集的构建旨在推动大规模多标签和多类图像分类的研究，自2016年起便成为计算机视觉领域的一个重要资源。主要研究人员包括Ivan Krasin、Tom Duerig等，他们在构建数据集时，不仅提供了机器标注，还引入了人工标注进行验证，以提高数据标注的准确性。该数据集对图像识别技术的发展产生了重要影响，为相关领域的研究提供了丰富的实验基础。

当前挑战

尽管Open Images数据集在图像分类研究中具有重要价值，但其构建和应用过程中也面临着诸多挑战。首先，图像的标注质量存在一定的不均匀性，某些标签的频率分布极不均衡，这可能导致模型训练时对某些类别的过度拟合。其次，数据集中图像的版权问题需要用户自行验证，这为数据的使用带来了一定的不便。此外，构建过程中确保大规模数据集的准确性和一致性也是一个持续的挑战。

常用场景

经典使用场景

在图像识别与分类研究领域，Open Images dataset以其庞大的图像数量和多样化的标签类别，成为了一个经典的使用场景。该数据集包含了九百万个图像URL，并标注了超过6000个类别的标签，这为研究人员提供了一个丰富的研究资源，用以训练和测试他们的图像识别模型。

实际应用

在实际应用中，Open Images dataset可以被用于改进和优化图像识别系统，如自动图片分类、内容审核和图像搜索等。其广泛的应用场景使得该数据集成为了开发高性能图像识别产品和服务的重要资源。

衍生相关工作

基于Open Images dataset，衍生出了多项相关工作，包括对数据集的进一步分析和标注，以及利用该数据集进行模型训练和性能评估的研究。这些工作不仅推动了图像识别技术的进步，也为相关领域的学术讨论和技术发展提供了有力支持。

以上内容由遇见数据集搜集并总结生成