Anonymous2024NipsUser/3MAD-66K|医学影像数据集|机器学习数据集
收藏数据集概述
数据集特征
- id (int64)
- file_name (string)
- original_attribute (string)
- unmatch_attribute (string)
- normal_prompt (string)
- harmful_prompt (string)
- policy (string)
- key_phrases (string)
- index_level_0 (int64)
- image (image)
数据集分割
- Dermoscopy_Skin
- 示例数: 6000
- 字节数: 1667741466.0
- MRI_Alzheimer
- 示例数: 6400
- 字节数: 30458356.4
- MRI_Brain
- 示例数: 7543
- 字节数: 178988912.578
- Fundus_Retina
- 示例数: 1310
- 字节数: 971441551.01
- Mamography_Breast
- 示例数: 12000
- 字节数: 206717335.0
- OCT_Retina
- 示例数: 2064
- 字节数: 407940243.2
- CT_Chest
- 示例数: 1273
- 字节数: 215916490.027
- CT_Heart
- 示例数: 1000
- 字节数: 28792481.0
- CT_Brain
- 示例数: 2515
- 字节数: 70454626.54
- Xray_Chest
- 示例数: 5993
- 字节数: 2441666526.275
- Xray_Skeleton
- 示例数: 12000
- 字节数: 1018791306.0
- Xray_Dental
- 示例数: 1000
- 字节数: 121605128.0
- Endoscopy_Gastroent
- 示例数: 1500
- 字节数: 244635200.0
- Ultrasound_Baby
- 示例数: 1684
- 字节数: 384731794.86
- Ultrasound_Breast
- 示例数: 467
- 字节数: 161470977.0
- Ultrasound_Carotid
- 示例数: 1100
- 字节数: 297373137.4
- Ultrasound_Ovary
- 示例数: 1426
- 字节数: 134107542.692
- Ultrasound_Brain
- 示例数: 1334
- 字节数: 173489521.746
数据集大小
- 下载大小: 8688131269
- 数据集大小: 8756322595.727999
配置文件
- config_name: default
- 数据文件路径配置
- 各分割对应的数据文件路径
- 数据文件路径配置

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录
腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)
这些语料库的最新版本提供了100维度和200维度的向量表示形式,也就是嵌入,适用于中文和英文。具体来说,有超过1200万个中文单词和短语以及650万个英语单词和短语,它们是在大规模高质量数据上进行预先培训的。这些向量捕获单词和短语的语义含义,可以广泛应用于许多下游任务 (例如,命名实体识别和文本分类) 以及进一步的研究中。
OpenDataLab 收录
Wafer Defect
该数据集包含了七个主要类别的晶圆缺陷,分别是:BLOCK ETCH、COATING BAD、PARTICLE、PIQ PARTICLE、PO CONTAMINATION、SCRATCH和SEZ BURNT。这些类别涵盖了晶圆在生产过程中可能出现的多种缺陷类型,每一种缺陷都有其独特的成因和表现形式。数据集不仅在类别数量上具有多样性,而且在样本的多样性和复杂性上也展现了其广泛的应用潜力。每个类别的样本均经过精心标注,确保了数据的准确性和可靠性。
github 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录