IMed-361M

Name: IMed-361M
Creator: 上海人工智能实验室
Published: 2024-11-20 03:06:29
License: 暂无描述

arXiv2024-11-20 更新2024-11-22 收录

下载链接：

https://github.com/uni-medical/IMIS-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

IMed-361M是由上海人工智能实验室和四川大学计算机科学学院联合创建的交互式医学图像分割基准数据集。该数据集整合了来自多个数据源的640万张医学图像及其对应的361亿个密集标注的掩码，涵盖14种成像模态和204个分割目标。数据集的创建过程包括图像的标准化、自动生成密集掩码以及严格的质量控制和粒度管理。IMed-361M旨在解决现有数据集在规模、多样性和密集标注方面的不足，支持医学图像分割模型的训练和评估，特别是在临床环境中实现高精度和可扩展性的分割任务。

IMed-361M is an interactive medical image segmentation benchmark dataset jointly created by the Shanghai AI Laboratory and the School of Computer Science, Sichuan University. This dataset integrates 6.4 million medical images from multiple data sources and their corresponding 36.1 billion densely annotated masks, covering 14 imaging modalities and 204 segmentation targets. The construction process of the dataset includes image standardization, automatic dense mask generation, as well as strict quality control and granularity management. IMed-361M aims to address the shortcomings of existing datasets in terms of scale, diversity and dense annotation, supporting the training and evaluation of medical image segmentation models, especially enabling high-precision and scalable segmentation tasks in clinical settings.

提供机构：

上海人工智能实验室

创建时间：

2024-11-20

原始信息汇总

IMIS-Benchmark 数据集概述

数据集简介

名称: IMed-361M
类型: 多模态交互式医学图像分割数据集
规模: 包含超过361百万个掩码
图像数量: 640万张
掩码数量: 273.4百万个（每张图像平均56个掩码）
成像模态: 14种
分割目标: 204个
分辨率: 83%的图像分辨率在256×256到1024×1024之间
多样性: 涵盖六个解剖组，大部分掩码覆盖面积小于图像的2%

数据集来源

创建方式: 通过预处理来自多个来源的110个医学图像数据集生成
公开方式: 数据集将在HuggingFace上公开

数据集结构

sh dataset ├── BTCV │ ├─ image │ │ ├── xxx.png │ │ ├── .... │ │ ├── xxx.png │ ├── label │ │ ├── xxx.npz │ │ ├── .... │ │ ├── xxx.npz │ ├── imask │ │ ├── xxx.npy │ │ ├── .... │ │ ├── xxx.npy │ └── dataset.json

相关论文

论文标题: Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline
作者: Junlong Cheng, Bin Fu, Jin Ye, Guoan Wang, Tianbin Li, Haoyu Wang, Ruoyu Li, He Yao, Junren Chen, JingWen Li, Yanzhou Su, Min Zhu, Junjun He
年份: 2024
arXiv链接: https://arxiv.org/abs/2411.12814

搜集汇总

数据集介绍

构建方式

IMed-361M数据集的构建过程体现了对大规模、多样化和高质量数据需求的深刻理解。首先，研究团队从多个数据源收集了超过640万张医学图像及其对应的地面真值掩码。随后，利用视觉基础模型的强大目标识别能力，自动生成了每张图像的密集交互掩码，并通过严格的质量控制和粒度管理确保了掩码的准确性。这一过程不仅涵盖了14种成像模态和204个分割目标，还通过平均每张图像56个掩码的密度，显著提升了数据集的实用性和研究价值。

特点

IMed-361M数据集的显著特点在于其前所未有的规模、多样性和掩码质量。该数据集包含了640万张图像，涵盖14种成像模态和204个分割目标，总计3.61亿个掩码，平均每张图像有56个掩码。这种高密度和多样性使得IMed-361M成为目前最大的多模态交互医学图像分割数据集。此外，数据集的构建过程中采用了严格的质量控制措施，确保了掩码的高准确性和一致性，从而为模型的训练和评估提供了坚实的基础。

使用方法

IMed-361M数据集的使用方法多样且灵活，适用于多种医学图像分割任务。研究者可以利用该数据集进行深度学习模型的训练，通过提供的密集交互掩码来提升模型的分割精度和泛化能力。此外，数据集支持多种交互输入方式，包括点击、边界框和文本提示，使得模型能够根据用户的具体需求生成高质量的分割结果。IMed-361M还提供了详细的文档和代码示例，帮助研究者快速上手并充分利用数据集的潜力，推动医学图像分割技术的发展。

背景与挑战

背景概述

交互式医学图像分割（IMIS）长期以来受限于大规模、多样化和密集标注数据集的缺乏，这阻碍了模型的泛化能力和不同模型间的一致性评估。IMed-361M数据集的引入，标志着在通用IMIS研究中的重大进展。该数据集由上海人工智能实验室和四川大学计算机科学学院等机构的研究人员共同创建，收集并标准化了来自多个数据源的超过640万张医学图像及其对应的地面真值掩码。通过利用视觉基础模型的强大物体识别能力，自动生成了密集的交互式掩码，并通过严格的质量控制和粒度管理确保了其质量。IMed-361M数据集涵盖了14种成像模式和204个分割目标，总计3.61亿个掩码，平均每张图像有56个掩码，显著超越了以往数据集的局限性。

当前挑战

IMed-361M数据集的构建面临多重挑战。首先，解决领域问题方面，如何确保在不同医学成像模式和复杂临床场景中的模型泛化能力是一个重大挑战。其次，在构建过程中，如何从多个数据源中收集和标准化大量医学图像，并生成高质量的密集掩码，同时进行严格的质量控制和粒度管理，是一项技术难题。此外，如何确保生成的掩码在临床应用中的准确性和实用性，以及如何评估不同交互策略对模型性能的影响，也是需要解决的关键问题。这些挑战不仅影响了数据集的构建质量，也对其在实际应用中的效能提出了考验。

常用场景

经典使用场景

IMed-361M数据集在交互式医学图像分割领域中扮演着重要角色。其经典使用场景包括通过用户交互输入（如点击、边界框和文本提示）来指导模型生成高质量的分割掩码。这种交互式方法不仅优化了分割结果，还显著提高了模型在未见过的对象类别上的泛化能力，从而更好地满足临床需求。

衍生相关工作

基于IMed-361M数据集，许多相关工作得以展开，推动了交互式医学图像分割技术的发展。例如，研究者们开发了多种基于SAM的改进模型，如MedSAM和SAM-Med2D，这些模型在特定临床场景中表现出色。此外，还有工作探索了文本提示与图像交互的结合，进一步提升了模型的灵活性和适应性，为未来的多模态分割研究奠定了基础。

数据集最近研究