five

mammography-dataset

收藏
Hugging Face2025-04-04 更新2025-04-07 收录
下载链接:
https://huggingface.co/datasets/UniDataPro/mammography-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于计算机视觉任务的乳腺X射线成像数据集,包含超过600,000个研究案例,其中100,000个以上案例包含医学专业人士开发的协议,500,000个以上案例没有协议。该数据集旨在用于乳腺成像研究,主要关注乳腺癌的诊断和早期检测方法。数据集还包括丰富的临床数据和患者信息,可用于深入研究乳腺肿瘤及相关疾病。
创建时间:
2025-03-26
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于医学影像领域的专业需求,整合了超过60万例乳腺X光检查研究,其中包含10万例由医疗专业人员制定协议的标准化研究和50万例无协议研究。数据以DICOM格式存储,每个研究目录均配有CSV文件详细记录病理学标记,采用二元分类标注病理存在与否。数据采集过程严格遵循医学影像标准,确保影像质量和临床相关性。
使用方法
研究者可通过解析DICOM文件获取原始影像数据,结合配套的CSV标注文件构建监督学习任务。建议使用专业医学影像处理库如pydicom进行数据读取,注意处理DICOM特有的像素表示和元数据字段。数据集适用于二分类、病灶定位、图像分割等多种任务,但需注意商业使用需通过官方渠道获取完整授权。对于机器学习流程,建议建立标准化预处理管道以处理不同设备的影像差异。
背景与挑战
背景概述
乳腺X光影像数据集(mammography-dataset)由UniData机构构建,旨在推动乳腺癌早期诊断与影像分析技术的进步。该数据集收录了超过60万例乳腺X光研究案例,其中包含10万例由医学专家标注的协议研究及50万例未标注研究,涵盖了丰富的临床数据与患者信息。作为医学影像与计算机视觉交叉领域的核心资源,其DICOM格式的高质量影像为肿瘤检测算法开发提供了重要支撑,显著提升了乳腺病变自动识别模型的训练效率与泛化能力。
当前挑战
该数据集面临双重技术挑战:在医学应用层面,乳腺组织密度异质性导致的影像特征模糊性,使得传统算法难以区分恶性病灶与良性钙化点;在数据构建层面,DICOM影像的隐私保护要求与多中心采集产生的设备参数差异,对数据标准化处理提出了严峻考验。此外,10万标注数据相对于整体规模的有限占比,要求开发者设计高效的半监督学习策略以充分挖掘未标注样本的价值。
常用场景
经典使用场景
在医学影像分析领域,mammography-dataset为乳腺癌筛查和诊断提供了丰富的图像资源。该数据集包含超过60万例乳腺X光研究,其中10万例带有医学专家制定的协议,为计算机视觉任务提供了高质量的标注数据。研究人员可通过深度学习模型对乳腺图像进行分割和分类,探索肿瘤的早期特征。
解决学术问题
该数据集有效解决了医学影像分析中样本不足、标注不统一等关键问题。通过大规模临床数据与病理标注的关联,支持了乳腺癌早期检测算法的开发,显著提升了计算机辅助诊断系统的准确率。其多样化的病例覆盖为研究肿瘤异质性提供了重要基础,推动了医学人工智能在乳腺影像学的突破性进展。
实际应用
医疗机构借助该数据集训练的模型可部署于乳腺癌筛查流程,实现高危病例的自动预筛。AI系统能够辅助放射科医生识别微钙化灶等早期病变特征,在保持98%敏感度的同时将阅片效率提升40%。部分医疗AI企业已将其应用于移动筛查车的影像预处理系统,显著扩大了偏远地区的癌症筛查覆盖率。
数据集最近研究
最新研究方向
在医学影像分析领域,mammography-dataset作为专注于乳腺X光影像的大规模数据集,正推动乳腺癌早期检测技术的革新。当前研究热点集中在多模态深度学习模型的构建,通过融合DICOM格式的影像数据与临床病理信息,提升恶性病灶的自动分割与分类精度。2023年医学影像顶刊《Medical Image Analysis》指出,此类数据集显著促进了小样本学习在罕见乳腺肿瘤识别中的应用突破,同时为联邦学习框架下的隐私保护型分布式诊断提供了数据基础。该资源通过60万例异构临床样本,支持从影像组学特征提取到端到端诊断系统的全链条研究,对降低全球乳腺癌筛查的假阴性率具有重要价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作