five

MAMA-MIA|乳腺癌数据集|深度学习数据集

收藏
arXiv2024-06-20 更新2024-08-06 收录
乳腺癌
深度学习
下载链接:
http://arxiv.org/abs/2406.13844v1
下载链接
链接失效反馈
资源简介:
MAMA-MIA数据集是由巴塞罗那人工智能医学实验室(BCN-AIM)创建的大型多中心乳腺癌DCE-MRI基准数据集,包含1506个案例,每个案例都有专家对主要肿瘤和非肿块增强区域的分割。数据集内容丰富,包括49个协调的临床和人口统计变量,以及使用知名nnUNet架构训练的预训练权重。创建过程中,首先使用深度学习模型自动分割案例,然后由16名平均有9年经验的专家进行修正,确保分割质量。该数据集主要用于加速深度学习模型的发展和基准测试,推动乳腺癌诊断和治疗规划的创新。
提供机构:
巴塞罗那人工智能医学实验室(BCN-AIM)
创建时间:
2024-06-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
MAMA-MIA数据集的构建始于从The Cancer Imaging Archive (TCIA)中收集的四个公开数据集,共计1506例动态对比增强磁共振成像(DCE-MRI)病例。首先,利用深度学习模型对这些病例进行初步自动分割,显著减少了专家分割的时间。随后,由16位平均具有9年乳腺癌诊断经验的专家对这些初步分割进行修正和验证,最终形成了1506例专家分割数据。此外,两位放射科医生对自动分割进行了视觉检查,以支持未来的质量控制研究。
特点
MAMA-MIA数据集的显著特点在于其大规模、多中心和高质量的专家分割数据,涵盖了1506例DCE-MRI病例。数据集不仅包括专家分割结果,还提供了49个协调一致的临床和人口统计变量,以及使用DCE-MRI全图像和专家分割数据预训练的nnUNet架构权重。这些特点使得该数据集成为开发和基准测试深度学习模型、推动乳腺癌诊断和治疗规划创新的宝贵资源。
使用方法
MAMA-MIA数据集可用于多种应用,包括治疗反应和生存预测、乳腺癌MRI的自动分割以及分割质量控制。研究者可以利用数据集中的专家分割数据来训练和验证自动分割算法,或使用预训练的nnUNet模型进行推理或微调。此外,数据集中的临床和人口统计信息可用于训练生成模型,以合成真实的MRI切片或全3D DCE-MRI体积,从而优化图像分析算法。数据集的文件结构设计便于检索和训练AI模型,支持即插即用的方式进行研究。
背景与挑战
背景概述
乳腺癌动态对比增强磁共振成像(DCE-MRI)在评估肿瘤特征和治疗反应方面具有重要意义。然而,当前研究面临的主要挑战之一是缺乏专家标注的分割数据。为解决这一问题,MAMA-MIA数据集应运而生,该数据集由1506例多中心DCE-MRI病例组成,并附有专家对原发肿瘤和非肿块增强区域的分割标注。这些病例来源于The Cancer Imaging Archive(TCIA)中的四个公开数据集。MAMA-MIA数据集的创建旨在加速深度学习模型的开发和基准测试,推动乳腺癌诊断和治疗规划的创新。
当前挑战
MAMA-MIA数据集在构建过程中面临多项挑战。首先,缺乏公开的专家分割数据限制了现有研究的规模和深度。其次,多中心数据的异质性,包括文件结构、命名和临床变量的不一致性,增加了数据整合和标准化的难度。此外,自动分割模型的初步结果存在潜在偏差,需要专家进行手动校正,这不仅耗时且可能引入人为误差。最后,尽管数据集提供了大量的专家分割标注,但仍需进一步的质量控制措施以确保分割的准确性和一致性。
常用场景
经典使用场景
MAMA-MIA数据集在乳腺癌动态对比增强磁共振成像(DCE-MRI)领域中具有经典应用场景,主要用于开发和验证自动肿瘤分割算法。通过提供1506例多中心DCE-MRI病例及其专家分割结果,该数据集支持大规模、可泛化和鲁棒的自动肿瘤分割模型的训练与评估。此外,数据集还提供了预训练的nnUNet模型权重,为研究人员提供了一个基准,以便进一步改进和应用。
解决学术问题
MAMA-MIA数据集解决了乳腺癌DCE-MRI研究中长期存在的缺乏专家分割数据的问题。通过提供大规模的专家分割数据,该数据集显著推动了深度学习模型在乳腺癌诊断和治疗规划中的应用。这不仅提高了模型的准确性和可靠性,还为放射组学研究提供了高质量的分割基础,从而促进了乳腺癌治疗反应和生存预测的精确性。
衍生相关工作
基于MAMA-MIA数据集,许多相关研究工作得以开展,包括但不限于治疗反应预测、生存分析、影像合成和图像标准化等。例如,数据集中的预训练模型权重已被用于多种医学影像分割任务,推动了基础模型如MedSAM在乳腺癌MRI中的应用。此外,数据集的多中心特性也为跨域泛化和图像标准化技术的发展提供了宝贵的资源。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

PlantVillage

在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录

Houston2013, Berlin, Augsburg

本研究发布了三个多模态遥感基准数据集:Houston2013(高光谱和多光谱数据)、Berlin(高光谱和合成孔径雷达数据)和Augsburg(高光谱、合成孔径雷达和数字表面模型数据)。这些数据集用于土地覆盖分类,旨在通过共享和特定特征学习模型(S2FL)评估多模态基线。数据集包含不同模态和分辨率的图像,适用于评估和开发新的遥感图像处理技术。

arXiv 收录