five

Open Images dataset|图像识别数据集|机器学习数据集

收藏
github2019-05-13 更新2024-05-31 收录
图像识别
机器学习
下载链接:
https://github.com/xingyizhou/dataset
下载链接
链接失效反馈
资源简介:
Open Images是一个包含约900万张图片的数据集,这些图片被标注了超过6000个类别的标签。数据集的标注由Google Inc.授权,使用CC BY 4.0许可证,而本仓库内容则使用Apache 2许可证发布。

Open Images is a dataset comprising approximately 9 million images, each annotated with labels across over 6,000 categories. The annotations for this dataset are authorized by Google Inc. and are available under the CC BY 4.0 license, while the contents of this repository are released under the Apache 2 license.
创建时间:
2016-12-22
原始信息汇总

数据集概述

名称: Open Images dataset

描述: Open Images是一个包含约900万张图片的数据集,这些图片被标注了超过6000个类别的标签。

数据集内容:

  • 图片数量: 约900万张
  • 标签类别: 超过6000个
  • 数据分割: 训练集(9011219张图片)和验证集(167057张图片)
  • 标签类型: 机器标注和人工标注(仅验证集)

数据集组织:

  • 图片ID: 每个图片有一个唯一的64位ID
  • 标签描述: 标签为Freebase或Google Knowledge Graph API中的mids,详细描述可在dict.csv中找到
  • 标注信息: 每个标注有一个从0.0到1.0的置信度分数

数据集文件:

  • images.csv: 包含图片URL、ID、标题、作者和许可证信息
  • labels.csv: 将标签与图片ID关联,包含标签名称和置信度

许可证信息:

  • 图片许可证: CC BY 2.0
  • 数据集许可证: Apache 2

数据集下载:

  • 图片URL和元数据: 链接
  • 机器图像级标注(训练和验证集): 链接
  • 人工图像级标注(验证集): 链接

数据集使用:

  • 适用于大规模多标签和多类图像分类任务
  • 可用于模型训练和验证,以及如DeepDream和艺术风格转移等应用

引用信息:

  • APA风格: Krasin I., Duerig T., Alldrin N., Veit A., Abu-El-Haija S., Belongie S., Cai D., Feng Z., Ferrari V., Gomes V., Gupta A., Narayanan D., Sun C., Chechik G, Murphy K. OpenImages: A public dataset for large-scale multi-label and multi-class image classification, 2016. Available from https://github.com/openimages.
  • BibTeX: 见原文

数据集统计和质量

  • 标签分布: 标签分布不均,某些标签关联超过百万张图片,而其他标签关联少于100张
  • 标注准确性: 机器标注存在一定噪声,但标签关联的图片越多,标注越准确

数据集改进计划

  • 计划在未来几个月内提高Open Images数据集的标注质量,从而提升可训练模型的质量。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Open Images数据集的构建采取了对大约900万张图片进行标注的方式,这些图片的标签涵盖了6000多个类别。图片被分配了唯一的64位ID,并通过CSV文件进行组织,其中既包含了机器生成的标注,也包含了验证集的人类标注,以便于对机器标注进行验证。
特点
该数据集的特点在于其规模宏大,标签类别丰富,并且提供了机器和人类两种标注形式。此外,数据集还提供了预训练的Inception v3模型,以及通过BigQuery进行标注查询的功能。每个标注都附带了一个介于0.0到1.0之间的置信度数值,其中人类标注是确定的,而机器标注则具有分数形式的置信度。
使用方法
使用Open Images数据集时,用户可以从提供的URL下载图片及其元数据和标注信息。数据集被分为训练集和验证集,用户可以导入PostgreSQL数据库以方便查询。对于图像的获取,既可以直接使用原始URL,也可以使用提供的缩略图URL。在使用前,用户应自行验证每张图片的版权许可状态。
背景与挑战
背景概述
Open Images数据集是由Google Inc.创建的一个包含约900万个图像URL的公共数据集,这些图像被标注了超过6000个类别的标签。该数据集的构建旨在推动大规模多标签和多类图像分类的研究,自2016年起便成为计算机视觉领域的一个重要资源。主要研究人员包括Ivan Krasin、Tom Duerig等,他们在构建数据集时,不仅提供了机器标注,还引入了人工标注进行验证,以提高数据标注的准确性。该数据集对图像识别技术的发展产生了重要影响,为相关领域的研究提供了丰富的实验基础。
当前挑战
尽管Open Images数据集在图像分类研究中具有重要价值,但其构建和应用过程中也面临着诸多挑战。首先,图像的标注质量存在一定的不均匀性,某些标签的频率分布极不均衡,这可能导致模型训练时对某些类别的过度拟合。其次,数据集中图像的版权问题需要用户自行验证,这为数据的使用带来了一定的不便。此外,构建过程中确保大规模数据集的准确性和一致性也是一个持续的挑战。
常用场景
经典使用场景
在图像识别与分类研究领域,Open Images dataset以其庞大的图像数量和多样化的标签类别,成为了一个经典的使用场景。该数据集包含了九百万个图像URL,并标注了超过6000个类别的标签,这为研究人员提供了一个丰富的研究资源,用以训练和测试他们的图像识别模型。
实际应用
在实际应用中,Open Images dataset可以被用于改进和优化图像识别系统,如自动图片分类、内容审核和图像搜索等。其广泛的应用场景使得该数据集成为了开发高性能图像识别产品和服务的重要资源。
衍生相关工作
基于Open Images dataset,衍生出了多项相关工作,包括对数据集的进一步分析和标注,以及利用该数据集进行模型训练和性能评估的研究。这些工作不仅推动了图像识别技术的进步,也为相关领域的学术讨论和技术发展提供了有力支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)

这些语料库的最新版本提供了100维度和200维度的向量表示形式,也就是嵌入,适用于中文和英文。具体来说,有超过1200万个中文单词和短语以及650万个英语单词和短语,它们是在大规模高质量数据上进行预先培训的。这些向量捕获单词和短语的语义含义,可以广泛应用于许多下游任务 (例如,命名实体识别和文本分类) 以及进一步的研究中。

OpenDataLab 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录