five

LUNA25-MedSAM2|医学图像分割数据集|肺结节检测数据集

收藏
huggingface2025-04-28 更新2025-04-29 收录
医学图像分割
肺结节检测
下载链接:
https://huggingface.co/datasets/wanglab/LUNA25-MedSAM2
下载链接
链接失效反馈
资源简介:
LUNA25-MedSAM2数据集是一个医学图像数据集,包含了6163个经过MedSAM2标注的肺结节。该数据集首先使用MedSAM2 Lesion CT分割模型对每个病变进行点提示,然后手动检查分割结果并修订所需的掩码。该数据集可用于训练和开发医学图像分割模型。
创建时间:
2025-04-20
原始信息汇总

LUNA25-MedSAM2 数据集概述

基本信息

  • 语言: 英文 (en)
  • 标签: 医学 (medical)
  • 许可证: CC-BY-NC-4.0
  • 任务类别: 图像分割 (image-segmentation)

数据集描述

  • 该数据集包含来自 LUNA25 挑战赛 的 6163 个肺结节标注。
  • 标注过程分为两步:
    1. 使用 MedSAM2 Lesion CT 分割模型对每个病变进行点提示分割。
    2. 人工检查分割结果并修正(约 880 个结节经过人工修正)。

作者信息

  • 主要作者: Jun Ma, Zongxin Yang (共同第一作者), Bo Wang (通讯作者)
  • 机构:
    • 多伦多大学健康网络 AI 协作中心
    • 向量人工智能研究所
    • 哈佛医学院生物医学信息学系
    • 多伦多大学健康网络 Peter Munk 心脏中心
    • 多伦多大学计算机科学系
    • 多伦多大学实验室医学与病理生物学系
    • Roche Canada 和 Genentech

使用方式

python

安装所需包

pip install datasets

加载数据集

from datasets import load_dataset

下载并加载数据集

dataset = load_dataset("wanglab/LUNA25-MedSAM2")

访问训练集

train_dataset = dataset["train"]

显示第一个示例

print(train_dataset[0])

引用要求

使用该数据集时需同时引用 LUNA25 和 MedSAM2: bash @misc{LUNA25-Image, doi = {10.5281/ZENODO.14223624}, url = {https://zenodo.org/doi/10.5281/zenodo.14223624}, author = {Peeters, Dré and Obreja, Bogdan and Antonissen, Noa and Jacobs, Colin}, keywords = {Lung Cancer, Artificial Intelligence, Computed Tomography, Radiologists, Computer-Aided Diagnosis}, title = {The LUNA25 Challenge: Public Training and Development set - Imaging Data}, publisher = {Zenodo}, year = {2025}, copyright = {Creative Commons Attribution 4.0 International} }

@misc{LUNA25-Annotation, doi = {10.5281/ZENODO.14673658}, url = {https://zenodo.org/doi/10.5281/zenodo.14673658}, author = {Peeters, Dré and Obreja, Bogdan and Antonissen, Noa and Jacobs, Colin}, keywords = {Lung Cancer, Artificial Intelligence, Computed Tomography, Radiologists, Computer-Aided Diagnosis}, title = {The LUNA25 Challenge: Public Training and Development set - Annotation Data}, publisher = {Zenodo}, year = {2025}, copyright = {Creative Commons Attribution Non Commercial 4.0 International} }

@article{MedSAM2, title={MedSAM2: Segment Anything in 3D Medical Images and Videos}, author={Ma, Jun and Yang, Zongxin and Kim, Sumin and Chen, Bihui and Baharoon, Mohammed and Fallahpour, Adibvafa and Asakereh, Reza and Lyu, Hongwei and Wang, Bo}, journal={arXiv preprint arXiv:2504.63609}, year={2025} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
在医学影像分析领域,LUNA25-MedSAM2数据集的构建体现了深度学习与人工校验的协同优势。研究团队首先运用MedSAM2病灶分割模型对6163个肺结节进行自动化点提示分割,随后由专业医师对约880个存在误差的分割结果进行人工修正,确保标注精度达到临床应用标准。这种半自动化的构建流程既保留了深度学习的高效性,又通过人工干预保障了医学数据的可靠性。
特点
该数据集作为LUNA25挑战赛的核心资源,其突出特点在于全面覆盖了肺部CT影像中的结节标注。所有病灶均采用三维空间标注,支持体积测量和形态学分析等高级研究需求。数据集遵循CC-BY-NC-4.0许可协议,既保障了学术研究的开放性,又规范了商业使用边界。配套提供的Gradio演示和Colab案例进一步降低了研究人员的入门门槛。
使用方法
使用者可通过HuggingFace平台便捷获取该数据集,安装datasets库后调用load_dataset方法即可加载。数据集采用标准化的键值对结构存储,包含原始CT影像与对应分割掩膜。为遵循学术规范,使用时应同时引用LUNA25原始数据及MedSAM2方法论论文,配套提供的3D Slicer插件还能支持更复杂的医学影像分析任务。
背景与挑战
背景概述
LUNA25-MedSAM2数据集由多伦多大学健康网络AI协作中心、哈佛医学院生物医学信息学系以及多伦多大学计算机科学系等机构联合研发,聚焦于医学影像分割领域。该数据集基于LUNA25挑战赛的6163个肺结节CT影像,采用MedSAM2模型进行病灶分割标注,并经过人工校验修正。其核心价值在于为三维医学影像分割研究提供了高质量标注数据,推动了人工智能在肺癌早期诊断领域的应用发展。数据集构建过程中融合了深度学习模型自动标注与专家人工修正的双重优势,显著提升了医学影像标注效率与精度。
当前挑战
该数据集面临的主要挑战体现在两个方面:在领域问题层面,肺结节具有形态多变、边界模糊等特性,传统分割方法难以准确捕捉微小病灶的复杂空间特征;在构建过程中,尽管采用MedSAM2模型进行预标注,仍需对约14%的结节进行人工修正,反映出自动分割模型在应对异质性病灶时的局限性。此外,医学影像数据固有的隐私保护要求与标注过程所需的专业领域知识,进一步增加了数据集构建的复杂度。
常用场景
经典使用场景
在医学影像分析领域,LUNA25-MedSAM2数据集为肺部结节分割任务提供了高质量标注数据。该数据集通过结合MedSAM2模型的自动化分割与人工精细化修正,显著提升了肺部结节边界识别的准确性,成为评估新型分割算法性能的黄金标准。研究者可利用该数据集进行半监督学习、弱监督学习等前沿方法的验证,推动医学影像分割技术向更高精度发展。
数据集最近研究
最新研究方向
在医学影像分析领域,LUNA25-MedSAM2数据集的推出为肺癌结节自动分割研究注入了新的活力。该数据集基于LUNA25挑战赛的6163个肺结节标注数据,结合MedSAM2模型的三维医学影像分割能力,为研究者提供了高质量的基准数据。当前研究热点集中在如何利用点提示技术优化分割精度,以及探索半自动标注流程在临床实践中的应用价值。随着多模态医学影像分析的兴起,该数据集与CT_DeepLesion等资源的协同使用,正推动着跨模态迁移学习在肺部病变检测中的前沿探索。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录

PROSLU

PROSLU数据集是由哈尔滨工业大学社会计算与信息检索研究中心和华为技术有限公司共同创建的,包含超过5000条中文语句,每条语句都配有详细的个人资料信息,如知识图谱、用户资料和上下文感知信息。数据集通过人工标注确保高质量,旨在解决在语义模糊的实际场景中,传统基于文本的口语理解模型可能无法准确识别意图和槽位的问题。该数据集的应用领域主要集中在提高对话系统在复杂环境下的理解和响应能力,特别是在用户意图不明确或语句具有多重含义的情况下。

arXiv 收录

CHIRPS v2.0

CHIRPS v2.0是一个全球降水数据集,提供高分辨率的降水估计,结合了卫星观测和气象站数据。数据集覆盖全球,时间范围从1981年至今,空间分辨率为0.05度。

www.chc.ucsb.edu 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录