Open Images dataset

github2020-09-04 更新2024-05-31 收录

下载链接：

https://github.com/widemeadows/openimages-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Open Images是一个包含约900万张图片的数据集，这些图片被标注了图像级标签和边界框，涵盖数千个类别。

Open Images is a dataset comprising approximately 9 million images, each annotated with image-level labels and bounding boxes, encompassing thousands of categories.

创建时间：

2016-10-13

原始信息汇总

Open Images Dataset Overview

Dataset Description

Size: ~9 million URLs to images.
Annotations: Includes image-level labels and bounding boxes spanning thousands of classes.
Licenses:
- Annotations: Licensed by Google Inc. under CC BY 4.0.
- Images: Listed under CC BY 2.0, with no warranty regarding the license status of each image.

Dataset Organization

Splits: Training set (9,011,219 images), Validation set (41,620 images), and Test set (125,436 images).
Annotations:
- Image-Level Labels:
  - Machine Generated: 78,977,695 labels across 7,870 classes.
  - Human Verified: 9,376,588 labels (4,303,594 positive, 5,072,994 negative) across 19,661 classes.
  - Trainable Classes: 5,000 classes with sufficient human-verified samples.
- Bounding Boxes:
  - Total Boxes: 1,240,316 in train, 204,621 in validation, and 625,282 in test.
  - Classes: 600 object classes, with 545 considered trainable.
  - Annotations: Manually drawn by human annotators for validation and test sets, semi-automatically generated for training set.

Data Formats

CSV Files:
- images.csv: Contains image URLs, IDs, titles, authors, and license information.
- annotations-machine.csv: Machine-generated image-level labels.
- annotations-human.csv: Human-verified image-level labels.
- annotations-human-bbox.csv: Human provided labels with bounding box coordinates and additional attributes (occlusion, truncation, etc.).
Text Files:
- class-descriptions.csv: Descriptions for label MIDs.
- classes.txt: List of 19,868 image-level classes.
- classes-trainable.txt: List of 5,000 trainable image-level classes.
- classes-bbox.txt: List of 600 box-level classes.
- classes-bbox-trainable.txt: List of 545 trainable box-level classes.

Statistics and Data Analysis

Label Distribution: Skewed class distribution visualized in frequency plots.
Trained Models: Resnet 101 image classification model available for use.

Citation

APA-style citation and BibTeX entry provided for referencing the dataset in academic works.

搜集汇总

数据集介绍

构建方式

Open Images数据集的构建过程结合了自动化标注与人工验证的双重机制。首先，通过计算机视觉模型生成初步的图像级标签和边界框标注，随后由Google内部标注员和众包平台进行人工验证，确保标注的准确性。数据集的图像来源于公开的URL，涵盖了超过900万张图片，并标注了数千个类别的标签和边界框。这种半自动化的构建方式不仅提高了标注效率，还确保了数据的多样性和广泛性。

特点

Open Images数据集以其大规模和多样性著称，涵盖了超过900万张图像，并标注了数千个类别的图像级标签和边界框。其独特之处在于结合了机器生成和人工验证的标注方式，确保了标注的高质量。数据集还提供了丰富的元数据，包括图像的URL、作者信息和许可协议，便于用户进行二次使用和验证。此外，数据集的类别覆盖范围广泛，从常见物体到特定场景，为计算机视觉研究提供了丰富的素材。

使用方法

Open Images数据集的使用方法灵活多样，用户可以通过下载包含图像URL、元数据和标注信息的压缩包来获取数据。数据集分为训练集、验证集和测试集，便于模型训练和评估。用户可以根据需求选择使用图像级标签或边界框标注，并利用提供的元数据进行进一步的分析和处理。此外，数据集还提供了预训练的ResNet-101模型，用户可以直接用于图像分类任务，或在此基础上进行迁移学习和模型优化。

背景与挑战

背景概述

Open Images数据集由Google Inc.于2017年发布，旨在为大规模多标签和多类别图像分类任务提供丰富的标注数据。该数据集包含约900万张图像的URL，涵盖了数千个类别，并提供了图像级别的标签和边界框标注。Open Images的创建团队包括Ivan Krasin、Tom Duerig等多名研究人员，其核心研究问题在于如何通过大规模标注数据提升计算机视觉模型的性能。该数据集在图像分类、目标检测等领域具有广泛的影响力，推动了深度学习模型在复杂视觉任务中的应用。

当前挑战

Open Images数据集在解决图像分类和目标检测问题时面临的主要挑战包括：1) 数据标注的复杂性，尤其是大规模图像的多标签标注和边界框标注，需要大量的人工验证和半自动化工具的支持；2) 数据分布的偏斜问题，某些类别的样本数量远多于其他类别，导致模型训练时的不平衡；3) 构建过程中，如何确保标注的准确性和一致性，尤其是在半自动化标注流程中，如何减少误标和漏标的情况。此外，数据集的构建还涉及复杂的法律和版权问题，确保每张图像的许可状态符合使用要求。

常用场景

经典使用场景

Open Images数据集广泛应用于计算机视觉领域，特别是在图像分类和目标检测任务中。其丰富的图像级标签和边界框标注为研究者提供了多样化的数据支持，使得模型能够在复杂的多标签和多类别场景中进行训练和验证。该数据集尤其适合用于大规模图像识别系统的开发，帮助提升模型在真实世界场景中的泛化能力。

解决学术问题

Open Images数据集解决了计算机视觉领域中的多个关键问题，尤其是在多标签分类和目标检测方面。通过提供数百万张带有图像级标签和边界框标注的图像，该数据集显著提升了模型在复杂场景下的识别精度。此外，其多样化的类别覆盖和高质量的人工验证标注，有效减少了模型训练中的噪声，为学术研究提供了可靠的数据基础。

衍生相关工作

基于Open Images数据集，许多经典的研究工作得以展开。例如，Google利用该数据集训练了ResNet-101图像分类模型，显著提升了多标签分类的性能。此外，该数据集还催生了一系列关于目标检测和图像分割的研究，推动了计算机视觉领域的技术进步。这些工作不仅验证了数据集的实用性，也为后续研究提供了重要的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集