Open Images dataset|图像识别数据集|机器学习数据集
收藏Open Images 数据集概述
数据集描述
- 规模: 约900万张图片的URL。
- 标签: 包含超过6000个类别。
- 标签类型: 使用Freebase或Google Knowledge Graph API中的mids表示。
- 标签数量: 7844个不同的标签,其中约6000个标签被认为是可训练的。
数据集内容
- 图像: 每张图片有一个唯一的64位ID。
- 训练集: 9011219张图片。
- 验证集: 167057张图片。
- 标签分配: 每张图片可能有一个或多个图像级标签。
- 注释: 训练集和验证集都有机器生成的注释,验证集还有人工注释。
- 注释质量: 人工注释是确定的(正例1.0,负例0.0),机器注释有0.0到1.0的置信度。
数据集组织
- 文件类型: 包含两种CSV文件:
images.csv
和labels.csv
。 images.csv
: 包含图片URL、OpenImages ID、标题、作者和许可证信息。labels.csv
: 将标签与图像ID关联,每个标签附带一个置信度。
数据集下载
数据集质量
- 标签分布: 高度不均匀,某些标签关联超过一百万张图片,而其他标签关联不到100张。
- 注释准确性: 机器注释存在噪声,但标签关联的图片越多,准确性越高。
模型应用
- 已基于Open Images注释训练Inception v3模型,适用于微调应用及其他高级应用,如DeepDream和艺术风格转移。

OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
望诊影像数据集及诊断文本数据集
中医望诊数据集包含舌诊图片3000张、面诊图片2000张、目诊图片3000张,舌诊图片的内容部分为舌头(属口颌系统),面诊图片的内容部分包括了面和唇(属其他系统)、眼睛部分做了脱敏处理,目诊图片的内容部分为眼睛(属感觉系统)。该数据集提供舌诊图像的齿痕、裂纹、点刺、苔色、胖瘦的标注信息;以及面诊图像的唇色、唇形、面神的标注信息;目诊图像的特征属性包括颜色名称、颜色HSL值、大小、特征出处。
国家人口健康科学数据中心 收录
CMNEE(Chinese Military News Event Extraction dataset)
CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。
github 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
jojogo9/freshness
该数据集包含图像及其对应的标签,标签分为6类:腐烂的橙子、腐烂的香蕉、腐烂的苹果、新鲜的橙子、新鲜的香蕉、新鲜的苹果。数据集分为训练集和测试集,训练集包含10908个样本,测试集包含2705个样本。数据文件存储在指定的路径下。
hugging_face 收录