Open Images dataset|图像识别数据集|计算机视觉数据集
收藏Open Images 数据集概述
数据集描述
- 规模: 约900万张图片。
- 标签: 包含超过6000个类别。
- 标签类型: 使用Freebase或Google Knowledge Graph API中的mid标识。
- 标签描述: 每个标签的简短描述可在
dict.csv
中找到。 - 标签数量: 共有7844个不同的标签,其中约6000个标签被认为是可训练的。
数据集组织
- 图像ID: 每个图像有一个唯一的64位ID,以零填充的十六进制整数表示。
- 数据分割: 分为训练集(9011219张图像)和验证集(167057张图像)。
- 标签分配: 每张图像可能有一个或多个图像级标签。
- 注释类型: 训练集和验证集包含机器生成的注释,验证集还包含人工注释。
数据下载
- 图像URL和元数据: 大小654MB。
- 机器图像级注释: 包含训练和验证集,大小330MB。
- 人工图像级注释: 仅验证集,大小7MB。
数据文件格式
- images.csv: 包含图像URL、OpenImages ID、标题、作者和许可证信息。
- labels.csv: 将标签与图像ID关联,包含每个标签的置信度。
数据质量
- 标签分布: 高度不均匀,某些标签关联超过百万张图像,而其他标签关联不到100张。
- 注释准确性: 机器注释存在噪声,但标签关联的图像越多,通常越准确。
模型训练
- 已基于Open Images注释训练Inception v3模型,适用于微调和艺术风格转移等应用。

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录