Open Images Dataset

github2018-11-22 更新2024-05-31 收录

下载链接：

https://github.com/suzhoushr/open-images-dataset

下载链接

链接失效反馈

资源简介：

Open Images是一个包含约900万张图像的数据集，这些图像已被标注了超过6000个类别的图像级标签和边界框。该数据集旨在为机器学习和计算机视觉研究提供大规模的标注图像资源。

Open Images is a dataset comprising approximately 9 million images, each annotated with image-level labels and bounding boxes across over 6,000 categories. This dataset is designed to provide a large-scale resource of annotated images for machine learning and computer vision research.

创建时间：

2018-10-12

原始信息汇总

数据集概述

数据集名称

Open Images Dataset

数据集描述

包含约900万个图像URL，标注了超过6000个类别。

数据集下载

图像下载

图像分类：训练集（1,743,042张）、验证集（41,620张）、测试集（125,436张）。
图像处理：图像最长边最多1024像素，保持原始宽高比。
总大小：561GB。

下载方式

直接下载：
- 训练集：513GB
- 验证集：12GB
- 测试集：36GB
分包下载：
- 训练集分包：每个约30GB至46GB不等
- 验证集：12GB
- 测试集：36GB

挑战2018测试集下载

大小：10GB
压缩文件：9.7GB

使用Google Cloud存储下载

总大小：约18TB
下载方式：通过Google Cloud Storage Transfer功能，使用提供的tsv文件进行下载。

数据集使用注意事项

存储成本：使用Google Cloud存储下载后，用户需支付存储费用。

搜集汇总

数据集介绍

构建方式

Open Images Dataset是一个包含大约900万个图片URL的数据集，这些图片被注释了超过6000个类别的标签。数据集构建过程中，首先将图片进行缩放处理，确保最长边不超过1024像素，同时保持原始宽高比。之后，图片被分为训练集（1,743,042张）、验证集（41,620张）和测试集（125,436张），其中训练集还用于Open Images Challenge 2018挑战赛。

特点

该数据集的主要特点在于其规模庞大，类别覆盖广泛，且每个图片都带有边界框注释，有利于深度学习模型的训练和评估。此外，数据集通过AWS S3云存储桶和Google Cloud存储传输功能提供下载，方便用户获取和使用。

使用方法

用户可以通过安装awscli工具，使用命令行同步方式下载数据集到本地目录或自己的AWS S3存储桶。此外，数据集还提供了分装的tar文件，可以通过cp命令单独下载。对于使用Google Cloud的用户，可以通过Google Cloud控制台的用户界面，利用存储传输功能将图片传输到Google Cloud存储桶中。

背景与挑战

背景概述

Open Images Dataset是一个包含约900万个图片URL的数据集，这些图片被标注了超过6000个类别的标签。该数据集由Google研发团队创建于2016年，旨在为计算机视觉研究提供丰富的标注图像资源。该数据集的构建，不仅丰富了图像识别领域的数据资源，也为相关算法模型的训练与评估提供了有力支撑，对图像识别、分类及标注等领域产生了深远影响。

当前挑战

Open Images Dataset在构建与应用过程中面临的挑战主要包括：1）数据标注的准确性问题，如何确保大规模数据集中的图像标注质量；2）数据集的多样性挑战，如何在保持数据量的同时，确保数据覆盖的类别多样性；3）数据下载与处理的挑战，由于数据集规模巨大，如何高效地下载与处理数据成为了一项挑战。

常用场景

经典使用场景

在计算机视觉研究领域，Open Images Dataset以其丰富的标注图像资源，成为图像识别任务中的经典数据集。该数据集通过提供带有边界框标注的图像，支持研究者进行目标检测、图像分类等深度学习模型的训练与评估。

实际应用

在实际应用中，Open Images Dataset广泛应用于自动驾驶系统、图像搜索算法、内容审核系统等领域。其详尽的图像标注信息，为开发高精度计算机视觉解决方案提供了坚实基础。

衍生相关工作

基于Open Images Dataset，学术界衍生出了一系列相关工作，包括但不限于图像识别竞赛、新的算法提出和模型性能基准测试，这些工作进一步推动了计算机视觉技术的发展和创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集