five

miniMSD512

收藏
Hugging Face2026-04-02 更新2026-04-03 收录
下载链接:
https://huggingface.co/datasets/chehablaborg/miniMSD512
下载链接
链接失效反馈
官方服务:
资源简介:
miniMSD数据集是一个医学图像分割基准数据集,涵盖10个人体器官。该数据集源自医学分割十项全能(MSD),通过将NIfTI(NII)格式的体积扫描转换为序列化的2D RGB图像及其对应的分割掩码。数据集提供多种分辨率变体(244和512),便于使用、即插即用的可访问性和灵活的实验。每个数据集条目包含以下组件:器官类型、图像、二值掩码、详细(多类)掩码、体积ID和切片ID。图像、二值掩码和详细掩码均以PIL图像形式提供。二值掩码包含两个标签:0表示背景,1表示目标区域。详细掩码包含多个标签(0, 1, 2, 3, …),每个标签对应特定的解剖结构。数据集适用于医学图像分割任务,并提供了每个器官的统计信息,包括体积数量、总切片数、平均切片数和占总切片数的百分比。
创建时间:
2026-03-21
原始信息汇总

Mini Medical Segmentation Decathlon 512 (miniMSD512) 数据集概述

数据集简介

miniMSD数据集是一个医学图像分割基准数据集,涵盖10个人体器官。该数据集源自Medical Segmentation Decathlon (MSD),通过将NIfTI (NII)格式的容积扫描转换为序列化的2D RGB图像及其对应的分割掩码而创建。数据集提供多种分辨率版本(244512),旨在便于使用、开箱即用和灵活实验。

数据集详情

覆盖器官与数据统计

数据集涵盖10个人体器官,每个器官最多包含40个容积数据,每个容积由数量可变的图像切片组成。具体统计如下:

器官 容积数量 总切片数 平均每容积切片数 占总切片百分比
前列腺 32 1204 37.625 1.26%
心脏 20 2271 113.550 2.38%
海马体 40 2754 68.850 2.89%
肝血管 40 5796 144.900 6.08%
脑肿瘤 40 6200 155.000 6.51%
脾脏 40 6964 174.100 7.31%
胰腺 40 7068 176.700 7.42%
结肠 40 7344 183.600 7.71%
40 22510 562.750 23.62%
肝脏 40 33200 830.000 34.83%

数据特征

每个数据条目包含以下组件:

  • organ (string): 器官类型。
  • image (image): 图像,以PIL图像格式提供。
  • binary_mask (image): 二值掩码,以PIL图像格式提供。包含两个标签:0代表背景,1代表目标区域。
  • classes_mask (image): 详细(多类别)掩码,以PIL图像格式提供。包含多个标签(0, 1, 2, 3, …),每个标签对应一个特定的解剖结构。
  • volume_id (int32): 容积ID。
  • slice_id (int32): 切片ID。

技术规格

  • 任务类别: 图像分割
  • 语言: 英语
  • 标签: 器官、医学、CT、MRI
  • 许可证: CC-BY-4.0
  • 数据规模分类: 10K < n < 100K
  • 数据集大小: 8036673401.379 字节
  • 下载大小: 8926670093 字节
  • 数据分割: 仅包含“train”分割,包含95311个样本。

使用方式

可通过Hugging Face datasets库加载使用: python from datasets import load_dataset miniMSD512 = load_dataset("chehablaborg/miniMSD512", split="train")

作者

  • Charbel Toumieh
  • Ahmad Mustapha
  • Ali Chehab

引用

@dataset{minimsd2026, title = {MiniMSD}, author = {Toumieh, Charbel and Mustapha, Ahmad and Chehab, Ali}, year = {2026}, publisher = {Hugging Face}, howpublished = {url{https://huggingface.co/datasets/chehablaborg/miniMSD512}}, }

致谢

Chehab lab @ 2026

搜集汇总
数据集介绍
main_image_url
构建方式
在医学影像分析领域,高质量标注数据的获取是推动算法发展的关键。miniMSD512数据集源于著名的医学分割十项全能挑战赛,通过对原始三维NIfTI格式的容积扫描数据进行系统化处理,将其转换为序列化的二维RGB图像。这一转换过程不仅保留了每个切片的解剖结构信息,还生成了对应的二值掩码和多类别掩码,确保了数据在保持医学精确性的同时,提升了在主流深度学习框架中的易用性。数据集涵盖了前列腺、心脏、海马体等十种人体器官,总计包含超过九万五千个样本,为大规模模型训练提供了坚实基础。
特点
该数据集的核心特征在于其精心设计的结构化和多分辨率支持。每个数据样本均包含器官类型、原始图像、二值分割掩码、细粒度多类别掩码以及容积与切片标识符,形成了完整且自洽的标注体系。二值掩码简化了前景与背景的区分,而多类别掩码则精细刻画了不同解剖结构的边界,满足了从粗粒度到细粒度不同层次的研究需求。此外,数据集提供了244和512两种分辨率变体,赋予了研究者根据计算资源与任务复杂度进行灵活选择的自由,显著降低了医学影像分析的门槛。
使用方法
借助Hugging Face数据集库,研究者可以便捷地加载并使用miniMSD512数据集。通过调用`load_dataset`函数并指定数据集名称与分割方式,即可将数据载入Python环境。数据以字典形式组织,用户可通过索引访问具体的器官标签、影像切片及对应的掩码。这种设计使得数据能够无缝集成到现有的深度学习工作流中,例如直接用于训练卷积神经网络或视觉Transformer模型。清晰的接口与标准的图像格式,极大地简化了数据预处理、模型验证与结果可视化的整个实验流程。
背景与挑战
背景概述
医学影像分割作为计算机辅助诊断的关键技术,其发展依赖于高质量、大规模标注数据集的支持。MiniMSD512数据集由Chehab实验室于2026年发布,源自著名的医学分割十项全能挑战赛原始数据,旨在为研究者提供易于访问的二维切片格式基准。该数据集涵盖前列腺、心脏、海马体等十种人体器官的CT与MRI影像,共计九万余张切片,并附带精细的二进制掩码与多类别标注掩码。通过将原始三维体数据转换为标准化的二维图像序列,该数据集显著降低了医学影像分析的门槛,促进了深度学习模型在器官分割任务中的开发与验证,对推动精准医疗与自动化诊断工具的发展具有重要影响。
当前挑战
在医学影像分割领域,器官形态的多样性与病理变化的复杂性构成了核心挑战。MiniMSD512数据集所针对的器官分割任务需应对不同成像模态间的强度差异、器官边界的模糊性以及病变区域与正常组织的相似性等问题。数据构建过程中,研究团队面临原始NIfTI格式三维数据到二维序列转换的技术难题,包括切片对齐、分辨率统一及标注一致性的保持。此外,数据分布的极度不均衡,如肝脏切片占比高达34.83%,而前列腺仅占1.26%,可能引入模型训练偏差,需通过数据增强或采样策略加以缓解。
常用场景
经典使用场景
在医学影像分析领域,miniMSD512数据集作为标准化的二维切片资源,广泛应用于器官分割模型的训练与评估。研究者利用其覆盖的10种人体器官图像及对应的精细标注掩膜,构建深度学习框架,以自动化识别CT或MRI扫描中的解剖结构边界。该数据集通过提供预处理的RGB格式图像,简化了数据加载流程,使得算法开发能够专注于模型架构优化与性能提升,成为医学图像分割任务中的基准测试平台。
实际应用
在实际医疗场景中,miniMSD512支持临床辅助诊断系统的开发,例如用于肿瘤检测、手术规划或器官功能评估。医院与研究机构可基于该数据集训练模型,自动分割肝脏、肺部等关键器官,辅助放射科医生快速定位病灶区域,提升诊断效率与准确性。此外,它还为医学教育提供了可视化工具,帮助医学生理解复杂解剖结构,推动精准医疗与个性化治疗的发展。
衍生相关工作
围绕miniMSD512数据集,衍生出多项经典研究工作,包括基于U-Net及其变体的分割网络优化、多任务学习框架的构建以及半监督方法的探索。这些工作利用数据集的丰富标注,开发了针对特定器官如脑肿瘤或心脏的高精度分割算法,并在公开竞赛中取得了显著成果。同时,该数据集也促进了迁移学习与领域自适应技术的研究,为医学人工智能的跨模态应用奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作