CBIS-DDSM|乳腺癌检测数据集|医学影像分析数据集
收藏CBIS-DDSM数据集概述
数据集内容
- 图像数量: CBIS-DDSM数据集包含3103张乳腺X光片,其中465张包含多于一个异常。
- 分割图像与掩码: 数据集还包括3568张裁剪后的乳腺X光片和对应的3568个掩码。
- 数据集划分: 2458张乳腺X光片(79.21%)属于训练集,645张(20.79%)属于测试集。
数据集用途
- 该数据集适用于训练乳腺癌分类器或分割模型。
数据集下载
- 数据集可直接从官方网站下载。
数据集详细描述
- 关于数据集的详细描述和构建方法,可参考这篇论文。
数据集处理脚本
- Mammograms_code.ipynb: 该脚本用于检索本地机器上所有乳腺X光片的文件路径,并将每个图像路径与其病理信息合并为一个数据框,保存为CSV文件。
- mask_code.ipynb: 该脚本用于检索本地机器上所有掩码的文件路径,并将每个掩码路径与其病理信息合并为一个数据框,保存为CSV文件。
- convert_dicom.ipynb: 该脚本将CBIS-DDSM提供的DICOM格式的图像(乳腺X光片、掩码、异常裁剪)转换为16位PNG文件。
- Original_Split.ipynb: 该脚本根据官方论文提供的标准划分,创建测试集和训练集,并将所有图像的路径存储在一个数据框中,保存为CSV文件。

典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
VisDrone2019
VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。
github 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
Solar Power Generation Data
该数据集包含来自两个太阳能发电厂的发电数据。它包括以下字段:PLANT_ID(每个太阳能发电厂的唯一ID)、PLANT_NAME(太阳能发电厂的名称)、DATE_TIME(发电数据的时间戳)、DC_POWER(太阳能电池板产生的直流电功率,单位为kW)、AC_POWER(太阳能电池板产生的交流电功率,单位为kW)、DAILY_YIELD(每个发电厂的日能量产量,单位为kWh)、TOTAL_YIELD(每个发电厂的累计能量产量,单位为kWh)。该数据集提供了不同发电厂和时间段内太阳能发电的综合视图,使我们能够详细分析太阳能发电厂的性能和效率,并进行比较。
github 收录