five

Medical Segmentation Decathlon (MSD) datasets|医学图像分割数据集|数据集数据集

收藏
arXiv2019-02-25 更新2024-06-21 收录
医学图像分割
数据集
下载链接:
http://medicaldecathlon.com/
下载链接
链接失效反馈
资源简介:
医学分割十项全能(MSD)数据集是由纪念斯隆-凯特琳癌症中心等多家机构合作创建的大型注释医学图像数据集。该数据集包含2633个三维图像,涵盖多种感兴趣的解剖结构、多种模态和来源,用于支持语义分割算法的开发和评估。数据集通过开放源许可证提供,旨在通过全面的基准测试客观评估通用分割方法,并为研究领域提供开放和免费的医学图像数据。数据集的应用领域广泛,包括肿瘤、心脏、肝脏等器官的分割,旨在解决临床治疗规划和肿瘤体积测量等问题。
提供机构:
纪念斯隆-凯特琳癌症中心
创建时间:
2019-02-25
AI搜集汇总
数据集介绍
main_image_url
构建方式
Medical Segmentation Decathlon (MSD) 数据集通过多机构合作构建,涵盖了多种临床相关的解剖结构,旨在为语义分割算法的开发和评估提供高质量的医学图像数据。数据集的构建过程包括从多个机构收集2,633个三维医学图像,涵盖多种解剖部位和成像模态。所有图像均经过去标识化处理,并转换为NIfTI格式,以确保数据的易用性和互操作性。数据集的标注由专家完成,确保了标签的准确性和可靠性。
特点
MSD数据集的特点在于其多样性和广泛性,涵盖了从脑肿瘤到心脏、肝脏、胰腺等多个解剖部位的医学图像。数据集中的图像来自不同的设备和采集协议,反映了真实世界中的临床多样性。每个数据集都经过精心挑选,以确保其适用于语义分割算法的开发。此外,数据集的标注由专家完成,确保了标签的高质量。数据集还提供了详细的JSON描述文件,便于研究人员快速理解和使用数据。
使用方法
MSD数据集的使用方法非常灵活,研究人员可以通过下载数据集并利用NIfTI格式的图像进行语义分割算法的开发和评估。数据集提供了训练集和测试集,研究人员可以使用这些数据进行模型的训练和验证。数据集还支持多种软件平台,如3D Slicer、ITK Snap和MATLAB,便于研究人员进行图像处理和分析。此外,数据集的使用遵循Creative Commons CC-BY-SA 4.0许可,允许研究人员自由共享和改进数据,但需注明出处。
背景与挑战
背景概述
Medical Segmentation Decathlon (MSD) 数据集由多个国际知名研究机构联合创建,旨在为医学图像分割算法的开发与评估提供高质量的标注数据。该数据集于2019年发布,涵盖了多种临床相关的解剖结构,包括脑肿瘤、心脏、肝脏、海马体等十个不同的分割任务。通过多机构合作,MSD数据集汇集了2633个三维医学图像,涵盖了多种成像模态和临床场景。该数据集的创建不仅推动了医学图像分割算法的标准化评估,还为研究人员提供了开放且免费的数据资源,极大地促进了医学图像分析领域的发展。
当前挑战
MSD数据集在解决医学图像分割问题时面临多重挑战。首先,医学图像的多样性和复杂性使得通用分割算法的开发极具挑战性,尤其是在不同解剖结构和成像模态之间的泛化能力。其次,数据集的构建过程中,隐私保护和数据去标识化是主要障碍,尤其是在涉及患者敏感信息时,必须严格遵守健康信息隐私法规。此外,高质量的专家标注是数据集构建的核心,但标注过程耗时且成本高昂,尤其是在多机构协作的情况下,标注标准的一致性难以保证。最后,数据集的多样性和规模虽然为算法评估提供了丰富的场景,但也增加了算法在不同任务间的适应性和鲁棒性验证的难度。
常用场景
经典使用场景
Medical Segmentation Decathlon (MSD) 数据集广泛应用于医学图像分割算法的开发与评估。该数据集包含了多种临床相关解剖结构的标注图像,涵盖了从脑肿瘤到肝脏、心脏等多个器官的复杂分割任务。研究人员利用这些数据进行算法训练和验证,特别是在多任务分割场景下,MSD 数据集为开发通用型分割模型提供了丰富的实验基础。
实际应用
在实际应用中,MSD 数据集为临床诊断和治疗规划提供了重要支持。例如,脑肿瘤分割任务的数据可用于辅助神经外科医生制定手术方案,而肝脏和胰腺的分割数据则有助于肿瘤体积的精确测量和治疗效果的评估。此外,该数据集还被用于开发自动化分割工具,减少临床医生手动标注的工作量,提高诊断效率和准确性。
衍生相关工作
MSD 数据集催生了许多经典的研究工作。例如,基于该数据集的深度学习模型在 MICCAI 2018 的 Medical Segmentation Decathlon 挑战赛中表现出色,推动了多任务分割算法的发展。此外,许多研究利用 MSD 数据集进行跨领域迁移学习,探索了从单一任务到多任务分割的泛化能力。这些工作不仅提升了医学图像分割的技术水平,也为未来的临床应用奠定了坚实的基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录