five

CBIS-DDSM|乳腺癌检测数据集|医学影像分析数据集

收藏
github2024-05-17 更新2024-05-31 收录
乳腺癌检测
医学影像分析
下载链接:
https://github.com/sposso/CBIS-DDSM-DATASET
下载链接
链接失效反馈
资源简介:
该数据集用于训练乳腺癌分类器或分割模型,包含3103张乳腺X光片,其中465张有多个异常。数据集分为训练集和测试集,还包括3568张裁剪的乳腺X光片和对应的掩码。

This dataset is designed for training breast cancer classifiers or segmentation models. It comprises 3,103 mammograms, among which 465 contain multiple anomalies. The dataset is divided into training and testing sets and also includes 3,568 cropped mammograms along with their corresponding masks.
创建时间:
2022-12-18
原始信息汇总

CBIS-DDSM数据集概述

数据集内容

  • 图像数量: CBIS-DDSM数据集包含3103张乳腺X光片,其中465张包含多于一个异常。
  • 分割图像与掩码: 数据集还包括3568张裁剪后的乳腺X光片和对应的3568个掩码。
  • 数据集划分: 2458张乳腺X光片(79.21%)属于训练集,645张(20.79%)属于测试集。

数据集用途

  • 该数据集适用于训练乳腺癌分类器或分割模型。

数据集下载

数据集详细描述

  • 关于数据集的详细描述和构建方法,可参考这篇论文

数据集处理脚本

  • Mammograms_code.ipynb: 该脚本用于检索本地机器上所有乳腺X光片的文件路径,并将每个图像路径与其病理信息合并为一个数据框,保存为CSV文件。
  • mask_code.ipynb: 该脚本用于检索本地机器上所有掩码的文件路径,并将每个掩码路径与其病理信息合并为一个数据框,保存为CSV文件。
  • convert_dicom.ipynb: 该脚本将CBIS-DDSM提供的DICOM格式的图像(乳腺X光片、掩码、异常裁剪)转换为16位PNG文件。
  • Original_Split.ipynb: 该脚本根据官方论文提供的标准划分,创建测试集和训练集,并将所有图像的路径存储在一个数据框中,保存为CSV文件。
AI搜集汇总
数据集介绍
main_image_url
构建方式
CBIS-DDSM数据集的构建基于大规模的乳腺X光图像,涵盖了753例钙化病例和891例肿块病例。数据集的原始图像以DICOM格式存储,包含3103张乳腺X光图像,其中465张图像具有多个异常区域。此外,数据集还包括3568张裁剪后的乳腺图像及其对应的掩码。数据集的构建过程遵循严格的医学影像处理标准,确保图像质量和标注的准确性。
使用方法
使用CBIS-DDSM数据集时,用户首先需从官方网站下载数据集,并根据提供的脚本进行数据预处理。例如,使用Mammograms_code.ipynb脚本可以提取所有乳腺X光图像的路径及其病理信息,生成CSV文件。对于需要进行图像分割的任务,mask_code.ipynb脚本可用于提取掩码路径。此外,convert_dicom.ipynb脚本可将DICOM格式的图像转换为PNG格式,便于后续处理。
背景与挑战
背景概述
CBIS-DDSM数据集,全称为Curated Breast Imaging Subset of the Digital Database for Screening Mammography,是由美国国家癌症研究所(NCI)和麻省理工学院(MIT)共同创建的。该数据集的核心研究问题在于通过提供高质量的乳腺X光图像及其对应的病理信息,以支持乳腺癌的早期检测和分类模型的训练。CBIS-DDSM数据集的创建时间为2017年,其主要研究人员包括来自NCI和MIT的专家团队。该数据集的发布对乳腺癌筛查和诊断领域产生了深远影响,为研究人员提供了宝贵的资源,以开发和验证新的图像分析算法。
当前挑战
尽管CBIS-DDSM数据集在乳腺癌研究领域具有重要价值,但其构建过程中仍面临诸多挑战。首先,数据集的图像数量庞大且格式复杂,主要以DICOM格式存储,这增加了数据处理的难度。其次,数据集中包含的图像存在多种异常情况,如钙化和肿块,这些异常的多样性增加了分类和分割任务的复杂性。此外,数据集的标注信息虽然详细,但部分图像存在多个病变区域,导致标注的一致性和准确性成为一大挑战。最后,数据集的分割和训练集划分需要严格遵循标准化的流程,以确保模型的泛化能力和可靠性。
常用场景
经典使用场景
在医学影像分析领域,CBIS-DDSM数据集的经典使用场景主要集中在乳腺肿瘤的分类与分割任务上。研究者们利用该数据集中的高分辨率乳腺X光片及其对应的病变区域掩码,训练和验证乳腺肿瘤检测与分类模型。通过这些模型,可以有效识别和区分乳腺中的钙化点和肿块,从而辅助医生进行早期乳腺癌的诊断。
解决学术问题
CBIS-DDSM数据集在学术研究中解决了乳腺影像分析中的关键问题,如肿瘤的自动检测与分类。其丰富的图像数据和详细的病理信息为深度学习模型的训练提供了坚实的基础,推动了医学影像分析技术的发展。通过该数据集,研究者们能够开发出更为精确和高效的乳腺肿瘤检测算法,显著提升了乳腺癌早期诊断的准确性和可靠性。
实际应用
在实际应用中,CBIS-DDSM数据集被广泛用于开发和优化乳腺肿瘤检测系统。这些系统在临床环境中帮助医生快速识别和定位乳腺病变,提高了诊断效率和准确性。此外,该数据集还支持了多种医学影像分析工具的开发,为乳腺健康管理提供了强有力的技术支持,从而改善了患者的治疗效果和生活质量。
数据集最近研究
最新研究方向
在乳腺癌诊断领域,CBIS-DDSM数据集的最新研究方向主要集中在深度学习模型的应用上,以提高乳腺癌检测的准确性和效率。具体而言,研究者们致力于开发和优化基于卷积神经网络(CNN)的分类器和分割模型,这些模型能够从数据集中提取的乳腺X光片和掩码中学习到有用的特征。此外,研究还涉及如何有效地处理和转换DICOM格式的图像数据,以及如何根据标准化的数据分割方法来构建训练和测试集。这些研究不仅推动了乳腺癌早期检测技术的发展,也为医学影像分析领域的深度学习应用提供了宝贵的实践经验。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

Solar Power Generation Data

该数据集包含来自两个太阳能发电厂的发电数据。它包括以下字段:PLANT_ID(每个太阳能发电厂的唯一ID)、PLANT_NAME(太阳能发电厂的名称)、DATE_TIME(发电数据的时间戳)、DC_POWER(太阳能电池板产生的直流电功率,单位为kW)、AC_POWER(太阳能电池板产生的交流电功率,单位为kW)、DAILY_YIELD(每个发电厂的日能量产量,单位为kWh)、TOTAL_YIELD(每个发电厂的累计能量产量,单位为kWh)。该数据集提供了不同发电厂和时间段内太阳能发电的综合视图,使我们能够详细分析太阳能发电厂的性能和效率,并进行比较。

github 收录