Open Images dataset|图像识别数据集|机器学习数据集
收藏数据集概述
名称: Open Images dataset
描述: Open Images是一个包含约900万张图片的数据集,这些图片被标注了超过6000个类别的标签。
数据集内容:
- 图片数量: 约900万张
- 标签类别: 超过6000个
- 数据分割: 训练集(9011219张图片)和验证集(167057张图片)
- 标签类型: 机器标注和人工标注(仅验证集)
数据集组织:
- 图片ID: 每个图片有一个唯一的64位ID
- 标签描述: 标签为Freebase或Google Knowledge Graph API中的mids,详细描述可在
dict.csv
中找到 - 标注信息: 每个标注有一个从0.0到1.0的置信度分数
数据集文件:
- images.csv: 包含图片URL、ID、标题、作者和许可证信息
- labels.csv: 将标签与图片ID关联,包含标签名称和置信度
许可证信息:
- 图片许可证: CC BY 2.0
- 数据集许可证: Apache 2
数据集下载:
数据集使用:
- 适用于大规模多标签和多类图像分类任务
- 可用于模型训练和验证,以及如DeepDream和艺术风格转移等应用
引用信息:
- APA风格: Krasin I., Duerig T., Alldrin N., Veit A., Abu-El-Haija S., Belongie S., Cai D., Feng Z., Ferrari V., Gomes V., Gupta A., Narayanan D., Sun C., Chechik G, Murphy K. OpenImages: A public dataset for large-scale multi-label and multi-class image classification, 2016. Available from https://github.com/openimages.
- BibTeX: 见原文
数据集统计和质量
- 标签分布: 标签分布不均,某些标签关联超过百万张图片,而其他标签关联少于100张
- 标注准确性: 机器标注存在一定噪声,但标签关联的图片越多,标注越准确
数据集改进计划
- 计划在未来几个月内提高Open Images数据集的标注质量,从而提升可训练模型的质量。

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)
这些语料库的最新版本提供了100维度和200维度的向量表示形式,也就是嵌入,适用于中文和英文。具体来说,有超过1200万个中文单词和短语以及650万个英语单词和短语,它们是在大规模高质量数据上进行预先培训的。这些向量捕获单词和短语的语义含义,可以广泛应用于许多下游任务 (例如,命名实体识别和文本分类) 以及进一步的研究中。
OpenDataLab 收录
网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录