Open Images dataset|图像识别数据集|机器学习数据集

github2017-01-09 更新2024-05-31 收录

图像识别

机器学习

下载链接：

https://github.com/caomw/dataset

下载链接

链接失效反馈

资源简介：

Open Images是一个包含约900万个图像URL的数据集，这些图像被标注了超过6000个类别的标签。数据集分为训练集和验证集，每个图像可能有一个或多个标签，标签信息可通过CSV文件获取。

Open Images is a dataset comprising approximately 9 million image URLs, each annotated with labels from over 6,000 categories. The dataset is divided into training and validation sets, with each image potentially having one or multiple labels. The label information can be accessed via CSV files.

创建时间：

2016-10-01

原始信息汇总

Open Images 数据集概述

数据集描述

规模: 约900万张图片的URL。
标签: 包含超过6000个类别。
标签类型: 使用Freebase或Google Knowledge Graph API中的mids表示。
标签数量: 7844个不同的标签，其中约6000个标签被认为是可训练的。

数据集内容

图像: 每张图片有一个唯一的64位ID。
训练集: 9011219张图片。
验证集: 167057张图片。
标签分配: 每张图片可能有一个或多个图像级标签。
注释: 训练集和验证集都有机器生成的注释，验证集还有人工注释。
注释质量: 人工注释是确定的（正例1.0，负例0.0），机器注释有0.0到1.0的置信度。

数据集组织

文件类型: 包含两种CSV文件：images.csv 和 labels.csv。
images.csv: 包含图片URL、OpenImages ID、标题、作者和许可证信息。
labels.csv: 将标签与图像ID关联，每个标签附带一个置信度。

数据集下载

图像URL和元数据: 链接 (654 MB)
机器图像级注释: 链接 (330 MB)
人工图像级注释: 链接 (7 MB)

数据集质量

标签分布: 高度不均匀，某些标签关联超过一百万张图片，而其他标签关联不到100张。
注释准确性: 机器注释存在噪声，但标签关联的图片越多，准确性越高。

模型应用

已基于Open Images注释训练Inception v3模型，适用于微调应用及其他高级应用，如DeepDream和艺术风格转移。

AI搜集汇总

数据集介绍

构建方式

Open Images数据集的构建基于对近900万张图片的URL进行标注，这些图片覆盖了超过6000个类别。数据集分为训练集和验证集，每个图像都被分配了一个唯一的64位ID，并通过CSV文件记录了图像的URL、ID、标题、作者和许可证信息。标注采用了机器标注和人工标注相结合的方式，确保了标注的质量和准确性。

特点

该数据集的特点在于其庞大的图像数量和丰富的类别覆盖，提供了机器和人工标注两种形式，使得数据集在多样性和准确性上均有所保证。此外，每个标注都附带了一个置信度评分，有助于后续的数据分析和模型训练。数据集的标签使用Freebase或Google Knowledge Graph API中的mid表示，并提供了短描述以便转换和理解。

使用方法

用户可以通过下载提供的tarball文件来获取数据集，其中包含了图片URL和元数据的CSV文件，以及机器和人工标注的CSV文件。用户需要自行验证图片的版权许可，并根据需要将标签的mid转换为相应的短描述。该数据集适用于图像识别、标注模型训练以及相关的细粒度视觉识别研究。

背景与挑战

背景概述

Open Images数据集，由Google公司于2016年推出，旨在为图像识别领域提供一份大规模、多样化的图像资源。该数据集包含了约900万个图像URL，这些图像被标注了超过6000个类别的标签。Open Images数据集的创建，不仅丰富了图像识别研究的资源库，也为机器学习算法的训练与评估提供了重要支撑，对计算机视觉领域产生了显著影响。

当前挑战

Open Images数据集面临的挑战主要包括：1)图像标注的准确性问题，尽管数据集中大部分图像都经过了机器标注，并有一部分的标注得到了人工验证，但标注错误仍然难以完全避免，尤其是在标签分布不均匀的情况下；2)图像版权的确认问题，尽管数据集的创建者努力确保图像遵循Creative Commons Attribution许可，但由于图像来源的多样性，版权确认仍然是一个复杂且必要的步骤。

常用场景

经典使用场景

Open Images dataset作为计算机视觉领域中的一项重要资源，其经典使用场景主要集中于图像识别与分类任务。研究人员和开发者可借助该数据集训练模型，以实现对图像中物体的自动识别与标注，从而提高机器视觉理解的准确性和效率。

衍生相关工作

基于Open Images dataset，研究者们衍生出了一系列相关工作，包括但不限于图像识别模型的优化、标注算法的改进、数据增强技术的应用等。这些工作进一步推动了计算机视觉技术的发展，并为相关领域的创新提供了坚实的基础。

数据集最近研究

最新研究方向

Open Images数据集作为计算机视觉领域的重要资源，其最新研究方向主要集中于图像识别与标注的准确性提升。研究者们致力于通过深度学习模型，如Inception v3，对图像进行精细标注，以实现更准确的图像分类与特征提取。此外，该数据集亦被用于模型微调应用，以及如DeepDream和艺术风格转换等前沿技术的探索。这些研究对于推动图像识别技术的发展、丰富图像内容理解的应用场景具有重大影响和意义。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库，旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合，以增加开放源代码声纳数据集的可见性，并提供一个更容易查找和比较数据集的方式。

github 收录

望诊影像数据集及诊断文本数据集

中医望诊数据集包含舌诊图片3000张、面诊图片2000张、目诊图片3000张，舌诊图片的内容部分为舌头（属口颌系统），面诊图片的内容部分包括了面和唇（属其他系统）、眼睛部分做了脱敏处理，目诊图片的内容部分为眼睛（属感觉系统）。该数据集提供舌诊图像的齿痕、裂纹、点刺、苔色、胖瘦的标注信息；以及面诊图像的唇色、唇形、面神的标注信息；目诊图像的特征属性包括颜色名称、颜色HSL值、大小、特征出处。

国家人口健康科学数据中心收录

CMNEE（Chinese Military News Event Extraction dataset）

CMNEE（Chinese Military News Event Extraction dataset）是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件，所有事件均基于预定义的军事领域模式人工标注，包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略，首先通过权威网站获取军事新闻文本并预处理，然后依据触发词字典进行预标注，经领域专家审核后形成事件模式。随后，通过人工分批、迭代标注并持续修正，直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集，对推动相关研究具有显著意义。

github 收录

TCIA

TCIA（The Cancer Imaging Archive）是一个公开的癌症影像数据集，包含多种癌症类型的医学影像数据，如CT、MRI、PET等。这些数据通常与临床和病理信息相结合，用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

jojogo9/freshness

该数据集包含图像及其对应的标签，标签分为6类：腐烂的橙子、腐烂的香蕉、腐烂的苹果、新鲜的橙子、新鲜的香蕉、新鲜的苹果。数据集分为训练集和测试集，训练集包含10908个样本，测试集包含2705个样本。数据文件存储在指定的路径下。

hugging_face 收录