five

LUNA25-MedSAM2|医学图像分割数据集|肺结节检测数据集

收藏
huggingface2025-04-28 更新2025-04-29 收录
医学图像分割
肺结节检测
下载链接:
https://huggingface.co/datasets/wanglab/LUNA25-MedSAM2
下载链接
链接失效反馈
资源简介:
LUNA25-MedSAM2数据集是一个医学图像数据集,包含了6163个经过MedSAM2标注的肺结节。该数据集首先使用MedSAM2 Lesion CT分割模型对每个病变进行点提示,然后手动检查分割结果并修订所需的掩码。该数据集可用于训练和开发医学图像分割模型。
创建时间:
2025-04-20
原始信息汇总

LUNA25-MedSAM2 数据集概述

基本信息

  • 语言: 英文 (en)
  • 标签: 医学 (medical)
  • 许可证: CC-BY-NC-4.0
  • 任务类别: 图像分割 (image-segmentation)

数据集描述

  • 该数据集包含来自 LUNA25 挑战赛 的 6163 个肺结节标注。
  • 标注过程分为两步:
    1. 使用 MedSAM2 Lesion CT 分割模型对每个病变进行点提示分割。
    2. 人工检查分割结果并修正(约 880 个结节经过人工修正)。

作者信息

  • 主要作者: Jun Ma, Zongxin Yang (共同第一作者), Bo Wang (通讯作者)
  • 机构:
    • 多伦多大学健康网络 AI 协作中心
    • 向量人工智能研究所
    • 哈佛医学院生物医学信息学系
    • 多伦多大学健康网络 Peter Munk 心脏中心
    • 多伦多大学计算机科学系
    • 多伦多大学实验室医学与病理生物学系
    • Roche Canada 和 Genentech

使用方式

python

安装所需包

pip install datasets

加载数据集

from datasets import load_dataset

下载并加载数据集

dataset = load_dataset("wanglab/LUNA25-MedSAM2")

访问训练集

train_dataset = dataset["train"]

显示第一个示例

print(train_dataset[0])

引用要求

使用该数据集时需同时引用 LUNA25 和 MedSAM2: bash @misc{LUNA25-Image, doi = {10.5281/ZENODO.14223624}, url = {https://zenodo.org/doi/10.5281/zenodo.14223624}, author = {Peeters, Dré and Obreja, Bogdan and Antonissen, Noa and Jacobs, Colin}, keywords = {Lung Cancer, Artificial Intelligence, Computed Tomography, Radiologists, Computer-Aided Diagnosis}, title = {The LUNA25 Challenge: Public Training and Development set - Imaging Data}, publisher = {Zenodo}, year = {2025}, copyright = {Creative Commons Attribution 4.0 International} }

@misc{LUNA25-Annotation, doi = {10.5281/ZENODO.14673658}, url = {https://zenodo.org/doi/10.5281/zenodo.14673658}, author = {Peeters, Dré and Obreja, Bogdan and Antonissen, Noa and Jacobs, Colin}, keywords = {Lung Cancer, Artificial Intelligence, Computed Tomography, Radiologists, Computer-Aided Diagnosis}, title = {The LUNA25 Challenge: Public Training and Development set - Annotation Data}, publisher = {Zenodo}, year = {2025}, copyright = {Creative Commons Attribution Non Commercial 4.0 International} }

@article{MedSAM2, title={MedSAM2: Segment Anything in 3D Medical Images and Videos}, author={Ma, Jun and Yang, Zongxin and Kim, Sumin and Chen, Bihui and Baharoon, Mohammed and Fallahpour, Adibvafa and Asakereh, Reza and Lyu, Hongwei and Wang, Bo}, journal={arXiv preprint arXiv:2504.63609}, year={2025} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
在医学影像分析领域,LUNA25-MedSAM2数据集的构建体现了深度学习与人工校验的协同优势。研究团队首先运用MedSAM2病灶分割模型对6163个肺结节进行自动化点提示分割,随后由专业医师对约880个存在误差的分割结果进行人工修正,确保标注精度达到临床应用标准。这种半自动化的构建流程既保留了深度学习的高效性,又通过人工干预保障了医学数据的可靠性。
特点
该数据集作为LUNA25挑战赛的核心资源,其突出特点在于全面覆盖了肺部CT影像中的结节标注。所有病灶均采用三维空间标注,支持体积测量和形态学分析等高级研究需求。数据集遵循CC-BY-NC-4.0许可协议,既保障了学术研究的开放性,又规范了商业使用边界。配套提供的Gradio演示和Colab案例进一步降低了研究人员的入门门槛。
使用方法
使用者可通过HuggingFace平台便捷获取该数据集,安装datasets库后调用load_dataset方法即可加载。数据集采用标准化的键值对结构存储,包含原始CT影像与对应分割掩膜。为遵循学术规范,使用时应同时引用LUNA25原始数据及MedSAM2方法论论文,配套提供的3D Slicer插件还能支持更复杂的医学影像分析任务。
背景与挑战
背景概述
LUNA25-MedSAM2数据集由多伦多大学健康网络AI协作中心、哈佛医学院生物医学信息学系以及多伦多大学计算机科学系等机构联合研发,聚焦于医学影像分割领域。该数据集基于LUNA25挑战赛的6163个肺结节CT影像,采用MedSAM2模型进行病灶分割标注,并经过人工校验修正。其核心价值在于为三维医学影像分割研究提供了高质量标注数据,推动了人工智能在肺癌早期诊断领域的应用发展。数据集构建过程中融合了深度学习模型自动标注与专家人工修正的双重优势,显著提升了医学影像标注效率与精度。
当前挑战
该数据集面临的主要挑战体现在两个方面:在领域问题层面,肺结节具有形态多变、边界模糊等特性,传统分割方法难以准确捕捉微小病灶的复杂空间特征;在构建过程中,尽管采用MedSAM2模型进行预标注,仍需对约14%的结节进行人工修正,反映出自动分割模型在应对异质性病灶时的局限性。此外,医学影像数据固有的隐私保护要求与标注过程所需的专业领域知识,进一步增加了数据集构建的复杂度。
常用场景
经典使用场景
在医学影像分析领域,LUNA25-MedSAM2数据集为肺部结节分割任务提供了高质量标注数据。该数据集通过结合MedSAM2模型的自动化分割与人工精细化修正,显著提升了肺部结节边界识别的准确性,成为评估新型分割算法性能的黄金标准。研究者可利用该数据集进行半监督学习、弱监督学习等前沿方法的验证,推动医学影像分割技术向更高精度发展。
数据集最近研究
最新研究方向
在医学影像分析领域,LUNA25-MedSAM2数据集的推出为肺癌结节自动分割研究注入了新的活力。该数据集基于LUNA25挑战赛的6163个肺结节标注数据,结合MedSAM2模型的三维医学影像分割能力,为研究者提供了高质量的基准数据。当前研究热点集中在如何利用点提示技术优化分割精度,以及探索半自动标注流程在临床实践中的应用价值。随着多模态医学影像分析的兴起,该数据集与CT_DeepLesion等资源的协同使用,正推动着跨模态迁移学习在肺部病变检测中的前沿探索。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

全国景区数据

  中华人民共和国旅游景区质量等级共分为五级,从高到低依次为AAAAA、AAAA、AAA、AA、A级五级。5A级景区代表着中国的世界级精品旅游风景区等级。  CnOpenData汇总整理了全国31个省份及直辖市的景区信息,涵盖了景区名称、省份、景区级别、地址、经纬度、简介等字段,为相关研究助力!

CnOpenData 收录

Tox21

Tox21数据集包含超过12,000种化学物质的生物活性数据,主要用于评估化学物质对12种不同生物学终点的毒性,包括核受体活性和应激反应。

tripod.nih.gov 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录