five

IMed-361M

收藏
arXiv2024-11-20 更新2024-11-22 收录
下载链接:
https://github.com/uni-medical/IMIS-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
IMed-361M是由上海人工智能实验室和四川大学计算机科学学院联合创建的交互式医学图像分割基准数据集。该数据集整合了来自多个数据源的640万张医学图像及其对应的361亿个密集标注的掩码,涵盖14种成像模态和204个分割目标。数据集的创建过程包括图像的标准化、自动生成密集掩码以及严格的质量控制和粒度管理。IMed-361M旨在解决现有数据集在规模、多样性和密集标注方面的不足,支持医学图像分割模型的训练和评估,特别是在临床环境中实现高精度和可扩展性的分割任务。

IMed-361M is an interactive medical image segmentation benchmark dataset jointly created by the Shanghai AI Laboratory and the School of Computer Science, Sichuan University. This dataset integrates 6.4 million medical images from multiple data sources and their corresponding 36.1 billion densely annotated masks, covering 14 imaging modalities and 204 segmentation targets. The construction process of the dataset includes image standardization, automatic dense mask generation, as well as strict quality control and granularity management. IMed-361M aims to address the shortcomings of existing datasets in terms of scale, diversity and dense annotation, supporting the training and evaluation of medical image segmentation models, especially enabling high-precision and scalable segmentation tasks in clinical settings.
提供机构:
上海人工智能实验室
创建时间:
2024-11-20
原始信息汇总

IMIS-Benchmark 数据集概述

数据集简介

  • 名称: IMed-361M
  • 类型: 多模态交互式医学图像分割数据集
  • 规模: 包含超过361百万个掩码
  • 图像数量: 640万张
  • 掩码数量: 273.4百万个(每张图像平均56个掩码)
  • 成像模态: 14种
  • 分割目标: 204个
  • 分辨率: 83%的图像分辨率在256×256到1024×1024之间
  • 多样性: 涵盖六个解剖组,大部分掩码覆盖面积小于图像的2%

数据集来源

  • 创建方式: 通过预处理来自多个来源的110个医学图像数据集生成
  • 公开方式: 数据集将在HuggingFace上公开

数据集结构

sh dataset ├── BTCV │ ├─ image │ │ ├── xxx.png │ │ ├── .... │ │ ├── xxx.png │ ├── label │ │ ├── xxx.npz │ │ ├── .... │ │ ├── xxx.npz │ ├── imask │ │ ├── xxx.npy │ │ ├── .... │ │ ├── xxx.npy │ └── dataset.json

相关论文

  • 论文标题: Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline
  • 作者: Junlong Cheng, Bin Fu, Jin Ye, Guoan Wang, Tianbin Li, Haoyu Wang, Ruoyu Li, He Yao, Junren Chen, JingWen Li, Yanzhou Su, Min Zhu, Junjun He
  • 年份: 2024
  • arXiv链接: https://arxiv.org/abs/2411.12814
搜集汇总
数据集介绍
main_image_url
构建方式
IMed-361M数据集的构建过程体现了对大规模、多样化和高质量数据需求的深刻理解。首先,研究团队从多个数据源收集了超过640万张医学图像及其对应的地面真值掩码。随后,利用视觉基础模型的强大目标识别能力,自动生成了每张图像的密集交互掩码,并通过严格的质量控制和粒度管理确保了掩码的准确性。这一过程不仅涵盖了14种成像模态和204个分割目标,还通过平均每张图像56个掩码的密度,显著提升了数据集的实用性和研究价值。
特点
IMed-361M数据集的显著特点在于其前所未有的规模、多样性和掩码质量。该数据集包含了640万张图像,涵盖14种成像模态和204个分割目标,总计3.61亿个掩码,平均每张图像有56个掩码。这种高密度和多样性使得IMed-361M成为目前最大的多模态交互医学图像分割数据集。此外,数据集的构建过程中采用了严格的质量控制措施,确保了掩码的高准确性和一致性,从而为模型的训练和评估提供了坚实的基础。
使用方法
IMed-361M数据集的使用方法多样且灵活,适用于多种医学图像分割任务。研究者可以利用该数据集进行深度学习模型的训练,通过提供的密集交互掩码来提升模型的分割精度和泛化能力。此外,数据集支持多种交互输入方式,包括点击、边界框和文本提示,使得模型能够根据用户的具体需求生成高质量的分割结果。IMed-361M还提供了详细的文档和代码示例,帮助研究者快速上手并充分利用数据集的潜力,推动医学图像分割技术的发展。
背景与挑战
背景概述
交互式医学图像分割(IMIS)长期以来受限于大规模、多样化和密集标注数据集的缺乏,这阻碍了模型的泛化能力和不同模型间的一致性评估。IMed-361M数据集的引入,标志着在通用IMIS研究中的重大进展。该数据集由上海人工智能实验室和四川大学计算机科学学院等机构的研究人员共同创建,收集并标准化了来自多个数据源的超过640万张医学图像及其对应的地面真值掩码。通过利用视觉基础模型的强大物体识别能力,自动生成了密集的交互式掩码,并通过严格的质量控制和粒度管理确保了其质量。IMed-361M数据集涵盖了14种成像模式和204个分割目标,总计3.61亿个掩码,平均每张图像有56个掩码,显著超越了以往数据集的局限性。
当前挑战
IMed-361M数据集的构建面临多重挑战。首先,解决领域问题方面,如何确保在不同医学成像模式和复杂临床场景中的模型泛化能力是一个重大挑战。其次,在构建过程中,如何从多个数据源中收集和标准化大量医学图像,并生成高质量的密集掩码,同时进行严格的质量控制和粒度管理,是一项技术难题。此外,如何确保生成的掩码在临床应用中的准确性和实用性,以及如何评估不同交互策略对模型性能的影响,也是需要解决的关键问题。这些挑战不仅影响了数据集的构建质量,也对其在实际应用中的效能提出了考验。
常用场景
经典使用场景
IMed-361M数据集在交互式医学图像分割领域中扮演着重要角色。其经典使用场景包括通过用户交互输入(如点击、边界框和文本提示)来指导模型生成高质量的分割掩码。这种交互式方法不仅优化了分割结果,还显著提高了模型在未见过的对象类别上的泛化能力,从而更好地满足临床需求。
衍生相关工作
基于IMed-361M数据集,许多相关工作得以展开,推动了交互式医学图像分割技术的发展。例如,研究者们开发了多种基于SAM的改进模型,如MedSAM和SAM-Med2D,这些模型在特定临床场景中表现出色。此外,还有工作探索了文本提示与图像交互的结合,进一步提升了模型的灵活性和适应性,为未来的多模态分割研究奠定了基础。
数据集最近研究
最新研究方向
在医学影像分割领域,IMed-361M数据集的最新研究方向主要集中在提升交互式分割模型的性能和泛化能力。通过整合多种医学影像模态和复杂的临床场景,IMed-361M数据集为模型提供了丰富的训练数据,从而推动了交互式医学影像分割技术的发展。研究者们利用该数据集开发了支持多种交互输入(如点击、边界框、文本提示及其组合)的基准网络,旨在通过用户交互生成高质量的分割结果,以满足临床需求。此外,该数据集还促进了基础模型在医学影像分析中的应用,为公平评估不同模型性能提供了坚实基础。
相关研究论文
  • 1
    Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline上海人工智能实验室 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作