five

LUNA25-MedSAM2

收藏
Hugging Face2025-04-28 更新2025-04-29 收录
下载链接:
https://huggingface.co/datasets/wanglab/LUNA25-MedSAM2
下载链接
链接失效反馈
官方服务:
资源简介:
LUNA25-MedSAM2数据集是一个医学图像数据集,包含了6163个经过MedSAM2标注的肺结节。该数据集首先使用MedSAM2 Lesion CT分割模型对每个病变进行点提示,然后手动检查分割结果并修订所需的掩码。该数据集可用于训练和开发医学图像分割模型。

The LUNA25-MedSAM2 dataset is a medical imaging dataset consisting of 6163 lung nodules annotated with MedSAM2. Specifically, the MedSAM2 Lesion CT segmentation model was first utilized to generate point prompts for each lesion, followed by manual inspection of the segmentation outputs and revision of the corresponding masks as needed. This dataset can be used for training and developing medical image segmentation models.
创建时间:
2025-04-20
原始信息汇总

LUNA25-MedSAM2 数据集概述

基本信息

  • 语言: 英文 (en)
  • 标签: 医学 (medical)
  • 许可证: CC-BY-NC-4.0
  • 任务类别: 图像分割 (image-segmentation)

数据集描述

  • 该数据集包含来自 LUNA25 挑战赛 的 6163 个肺结节标注。
  • 标注过程分为两步:
    1. 使用 MedSAM2 Lesion CT 分割模型对每个病变进行点提示分割。
    2. 人工检查分割结果并修正(约 880 个结节经过人工修正)。

作者信息

  • 主要作者: Jun Ma, Zongxin Yang (共同第一作者), Bo Wang (通讯作者)
  • 机构:
    • 多伦多大学健康网络 AI 协作中心
    • 向量人工智能研究所
    • 哈佛医学院生物医学信息学系
    • 多伦多大学健康网络 Peter Munk 心脏中心
    • 多伦多大学计算机科学系
    • 多伦多大学实验室医学与病理生物学系
    • Roche Canada 和 Genentech

使用方式

python

安装所需包

pip install datasets

加载数据集

from datasets import load_dataset

下载并加载数据集

dataset = load_dataset("wanglab/LUNA25-MedSAM2")

访问训练集

train_dataset = dataset["train"]

显示第一个示例

print(train_dataset[0])

引用要求

使用该数据集时需同时引用 LUNA25 和 MedSAM2: bash @misc{LUNA25-Image, doi = {10.5281/ZENODO.14223624}, url = {https://zenodo.org/doi/10.5281/zenodo.14223624}, author = {Peeters, Dré and Obreja, Bogdan and Antonissen, Noa and Jacobs, Colin}, keywords = {Lung Cancer, Artificial Intelligence, Computed Tomography, Radiologists, Computer-Aided Diagnosis}, title = {The LUNA25 Challenge: Public Training and Development set - Imaging Data}, publisher = {Zenodo}, year = {2025}, copyright = {Creative Commons Attribution 4.0 International} }

@misc{LUNA25-Annotation, doi = {10.5281/ZENODO.14673658}, url = {https://zenodo.org/doi/10.5281/zenodo.14673658}, author = {Peeters, Dré and Obreja, Bogdan and Antonissen, Noa and Jacobs, Colin}, keywords = {Lung Cancer, Artificial Intelligence, Computed Tomography, Radiologists, Computer-Aided Diagnosis}, title = {The LUNA25 Challenge: Public Training and Development set - Annotation Data}, publisher = {Zenodo}, year = {2025}, copyright = {Creative Commons Attribution Non Commercial 4.0 International} }

@article{MedSAM2, title={MedSAM2: Segment Anything in 3D Medical Images and Videos}, author={Ma, Jun and Yang, Zongxin and Kim, Sumin and Chen, Bihui and Baharoon, Mohammed and Fallahpour, Adibvafa and Asakereh, Reza and Lyu, Hongwei and Wang, Bo}, journal={arXiv preprint arXiv:2504.63609}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在医学影像分析领域,LUNA25-MedSAM2数据集的构建体现了深度学习与人工校验的协同优势。研究团队首先运用MedSAM2病灶分割模型对6163个肺结节进行自动化点提示分割,随后由专业医师对约880个存在误差的分割结果进行人工修正,确保标注精度达到临床应用标准。这种半自动化的构建流程既保留了深度学习的高效性,又通过人工干预保障了医学数据的可靠性。
特点
该数据集作为LUNA25挑战赛的核心资源,其突出特点在于全面覆盖了肺部CT影像中的结节标注。所有病灶均采用三维空间标注,支持体积测量和形态学分析等高级研究需求。数据集遵循CC-BY-NC-4.0许可协议,既保障了学术研究的开放性,又规范了商业使用边界。配套提供的Gradio演示和Colab案例进一步降低了研究人员的入门门槛。
使用方法
使用者可通过HuggingFace平台便捷获取该数据集,安装datasets库后调用load_dataset方法即可加载。数据集采用标准化的键值对结构存储,包含原始CT影像与对应分割掩膜。为遵循学术规范,使用时应同时引用LUNA25原始数据及MedSAM2方法论论文,配套提供的3D Slicer插件还能支持更复杂的医学影像分析任务。
背景与挑战
背景概述
LUNA25-MedSAM2数据集由多伦多大学健康网络AI协作中心、哈佛医学院生物医学信息学系以及多伦多大学计算机科学系等机构联合研发,聚焦于医学影像分割领域。该数据集基于LUNA25挑战赛的6163个肺结节CT影像,采用MedSAM2模型进行病灶分割标注,并经过人工校验修正。其核心价值在于为三维医学影像分割研究提供了高质量标注数据,推动了人工智能在肺癌早期诊断领域的应用发展。数据集构建过程中融合了深度学习模型自动标注与专家人工修正的双重优势,显著提升了医学影像标注效率与精度。
当前挑战
该数据集面临的主要挑战体现在两个方面:在领域问题层面,肺结节具有形态多变、边界模糊等特性,传统分割方法难以准确捕捉微小病灶的复杂空间特征;在构建过程中,尽管采用MedSAM2模型进行预标注,仍需对约14%的结节进行人工修正,反映出自动分割模型在应对异质性病灶时的局限性。此外,医学影像数据固有的隐私保护要求与标注过程所需的专业领域知识,进一步增加了数据集构建的复杂度。
常用场景
经典使用场景
在医学影像分析领域,LUNA25-MedSAM2数据集为肺部结节分割任务提供了高质量标注数据。该数据集通过结合MedSAM2模型的自动化分割与人工精细化修正,显著提升了肺部结节边界识别的准确性,成为评估新型分割算法性能的黄金标准。研究者可利用该数据集进行半监督学习、弱监督学习等前沿方法的验证,推动医学影像分割技术向更高精度发展。
数据集最近研究
最新研究方向
在医学影像分析领域,LUNA25-MedSAM2数据集的推出为肺癌结节自动分割研究注入了新的活力。该数据集基于LUNA25挑战赛的6163个肺结节标注数据,结合MedSAM2模型的三维医学影像分割能力,为研究者提供了高质量的基准数据。当前研究热点集中在如何利用点提示技术优化分割精度,以及探索半自动标注流程在临床实践中的应用价值。随着多模态医学影像分析的兴起,该数据集与CT_DeepLesion等资源的协同使用,正推动着跨模态迁移学习在肺部病变检测中的前沿探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作