miniMSD244

Hugging Face2026-04-02 更新2026-04-03 收录

下载链接：

https://huggingface.co/datasets/chehablaborg/miniMSD244

下载链接

链接失效反馈

官方服务：

资源简介：

miniMSD数据集是一个医学图像分割基准数据集，涵盖10个人体器官。该数据集源自医学分割十项全能（MSD），通过将NIfTI（NII）格式的体积扫描转换为序列化的2D RGB图像及其对应的分割掩码。数据集提供多种分辨率变体（244和512），便于使用、即插即用的可访问性和灵活的实验。数据集包含以下组件：器官类型、图像、二值掩码、详细（多类）掩码、体积ID和切片ID。图像、二值掩码和详细掩码均以PIL图像形式提供。二值掩码包含两个标签：0表示背景，1表示目标区域。详细掩码包含多个标签（0, 1, 2, 3, …），每个标签对应特定的解剖结构。数据集覆盖的器官包括前列腺、心脏、海马体、肝血管、脑肿瘤、脾脏、胰腺、结肠、肺和肝脏，每个器官包含最多40个体积，每个体积由可变数量的图像切片组成。

The miniMSD dataset is a benchmark medical image segmentation dataset covering 10 human organs. It is derived from the Medical Segmentation Decathlon (MSD), where volumetric scans in NIfTI (NII) format are converted into serialized 2D RGB images and their corresponding segmentation masks. The dataset provides multiple resolution variants (244 and 512) to facilitate ease of use, plug-and-play accessibility, and flexible experimentation. The dataset includes the following components: organ type, images, binary masks, detailed (multi-class) masks, volume ID, and slice ID. All images, binary masks, and detailed masks are provided in PIL image format. Binary masks contain two labels: 0 denotes the background, and 1 denotes the target region. Detailed masks contain multiple labels (0, 1, 2, 3, …), with each label corresponding to a specific anatomical structure. The organs covered by the dataset are the prostate, heart, hippocampus, hepatic vessels, brain tumor, spleen, pancreas, colon, lung, and liver. Each organ includes up to 40 volumes, and each volume consists of a variable number of image slices.

创建时间：

2026-03-31

原始信息汇总

Mini Medical Segmentation Decathlon 244 数据集概述

数据集基本信息

数据集名称：Mini Medical Segmentation Decathlon 244
发布者：Chehab lab
发布日期：2026年
许可协议：CC BY 4.0
任务类别：图像分割
语言：英语
标签：器官、医学、CT、MRI
规模类别：10K < n < 100K

数据来源与处理

原始数据集：医学分割十项全能（Medical Segmentation Decathlon, MSD）
处理方式：将原始NIfTI（NII）格式的容积扫描数据转换为序列化的2D RGB图像及其对应的分割掩码。
分辨率变体：提供244和512两种分辨率版本。本数据集为244分辨率版本。

数据集内容与结构

覆盖器官：10个人体器官。
数据条目组成：每个数据条目包含器官类型、图像、二值掩码、详细（多类别）掩码、容积ID和切片ID。
图像格式：图像、二值掩码和详细掩码均以PIL图像格式提供。
掩码说明：
- 二值掩码包含两个标签：0代表背景，1代表目标区域。
- 详细掩码包含多个标签（0, 1, 2, 3, …），每个标签对应特定的解剖结构。

数据统计

数据分割：仅包含训练集（train）。
训练集样本数：95,311个。
训练集大小：约8,036,673,401字节（约8.04 GB）。
下载大小：约8,926,670,093字节（约8.93 GB）。

各器官数据分布

器官	容积数量	总切片数	平均每容积切片数	占总切片百分比
前列腺	32	1,204	37.625	1.26%
心脏	20	2,271	113.550	2.38%
海马体	40	2,754	68.850	2.89%
肝血管	40	5,796	144.900	6.08%
脑肿瘤	40	6,200	155.000	6.51%
脾脏	40	6,964	174.100	7.31%
胰腺	40	7,068	176.700	7.42%
结肠	40	7,344	183.600	7.71%
肺	40	22,510	562.750	23.62%
肝脏	40	33,200	830.000	34.83%

使用方式

可通过Hugging Face datasets库加载使用。

python from datasets import load_dataset miniMSD244 = load_dataset("chehablaborg/miniMSD244", split="train")

作者

Charbel Toumieh
Ahmad Mustapha
Ali Chehab

引用

@dataset{minimsd2026, title = {MiniMSD}, author = {Toumieh, Charbel and Mustapha, Ahmad and Chehab, Ali}, year = {2026}, publisher = {Hugging Face}, howpublished = {url{https://huggingface.co/datasets/chehablaborg/miniMSD244}}, }

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，高质量的数据集对于推动算法研究至关重要。miniMSD244数据集源自著名的医学分割十项全能挑战赛，通过技术处理将原始的三维NIfTI格式容积扫描数据转换为序列化的二维RGB图像，并配以相应的分割掩码。这一转换过程不仅保留了关键解剖结构信息，还提供了两种分辨率变体以适应不同实验需求，从而降低了数据使用的技术门槛，提升了可访问性。

特点

该数据集涵盖了前列腺、心脏、海马体等十种人体器官的医学影像，总计包含超过九万五千个样本切片，每个样本均提供器官类型、原始图像、二值掩码及多类别详细掩码。影像数据以PIL图像格式呈现，掩码标签清晰区分背景与目标区域，多类别掩码则进一步标注了特定解剖结构。数据规模的多样性，例如肝脏和肺部切片数量显著较多，为模型训练提供了丰富的解剖学变异性和类别平衡挑战。

使用方法

研究人员可利用Hugging Face的datasets库直接加载数据集，通过指定数据集名称和分割方式即可便捷访问。每个数据条目包含器官标识、影像及掩码，支持可视化与算法训练。该数据集适用于图像分割任务的模型开发与评估，尤其适合用于医学影像分析领域的基准测试和迁移学习研究，为相关学术探索提供了标准化且易于处理的数据基础。

背景与挑战

背景概述

医学图像分割作为计算机视觉与医疗人工智能交叉领域的关键任务，其发展依赖于高质量、大规模标注数据集的支持。Mini Medical Segmentation Decathlon 244（miniMSD244）数据集由Chehab实验室的研究人员Charbel Toumieh、Ahmad Mustapha和Ali Chehab于2026年构建并发布，旨在为医学图像分割研究提供一个轻量化、易于访问的基准平台。该数据集源自著名的Medical Segmentation Decathlon（MSD）挑战赛，通过将原始的三维NIfTI格式体数据转换为序列化的二维RGB图像及其对应分割掩码，覆盖了前列腺、心脏、海马体等十种人体器官的CT与MRI扫描数据。其核心研究问题聚焦于多器官分割的泛化性与鲁棒性，为深度学习模型在临床诊断、手术规划等应用场景中的性能评估提供了标准化工具，显著推动了医学图像分析领域的可重复性与实验效率。

当前挑战

在医学图像分割领域，多器官分割任务面临诸多固有挑战，包括器官形态的异质性、图像模态间的域差异以及标注数据的稀缺性。miniMSD244数据集旨在应对这些挑战，通过提供统一格式的多器官分割基准，促进模型在跨器官泛化能力与鲁棒性方面的研究。然而，在数据集构建过程中，研究人员需克服原始体数据到二维序列图像的转换难题，确保空间分辨率与解剖结构信息的完整性；同时，处理不同器官间体积与切片数量的显著不平衡，例如肝脏切片占比高达34.83%，而前列腺仅占1.26%，这对数据采样与模型训练策略提出了更高要求。此外，保持标注一致性并适配主流深度学习框架的输入格式，亦是实现数据集易用性与可扩展性的关键环节。

常用场景

经典使用场景

在医学影像分析领域，miniMSD244数据集作为一项标准化的基准资源，广泛应用于器官分割模型的训练与评估。该数据集将原始的三维医学影像转换为二维切片，并提供了精确的二进制掩码和多类别掩码，极大地简化了数据预处理流程。研究人员能够直接利用这些图像进行深度学习模型的端到端训练，特别是在卷积神经网络和U-Net架构的优化中，该数据集为模型性能的横向比较提供了可靠依据。

解决学术问题

miniMSD244数据集有效应对了医学影像分割研究中数据标准化不足的挑战。通过整合10种人体器官的标注数据，它解决了以往研究中因数据格式不统一、标注质量参差不齐而导致的模型泛化能力弱的问题。该数据集促进了分割算法在跨器官、跨模态影像上的性能评估，为学术界探索鲁棒性强、可解释性高的自动分割方法奠定了数据基础，推动了精准医疗影像分析的发展。

衍生相关工作

围绕miniMSD244数据集，已衍生出多项重要的研究工作。例如，一些研究利用该数据集探索了少样本学习在医学分割中的应用，以应对标注数据稀缺的困境；另一些工作则专注于开发轻量化模型，使其能够在资源受限的边缘设备上运行。此外，该数据集也常被用于验证新型损失函数、数据增强策略以及半监督学习框架的有效性，这些成果进一步丰富了医学影像分析的方法论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集