LUNA25-MedSAM2|医学图像分割数据集|肺结节检测数据集
收藏LUNA25-MedSAM2 数据集概述
基本信息
- 语言: 英文 (en)
- 标签: 医学 (medical)
- 许可证: CC-BY-NC-4.0
- 任务类别: 图像分割 (image-segmentation)
数据集描述
- 该数据集包含来自 LUNA25 挑战赛 的 6163 个肺结节标注。
- 标注过程分为两步:
- 使用 MedSAM2 Lesion CT 分割模型对每个病变进行点提示分割。
- 人工检查分割结果并修正(约 880 个结节经过人工修正)。
作者信息
- 主要作者: Jun Ma, Zongxin Yang (共同第一作者), Bo Wang (通讯作者)
- 机构:
- 多伦多大学健康网络 AI 协作中心
- 向量人工智能研究所
- 哈佛医学院生物医学信息学系
- 多伦多大学健康网络 Peter Munk 心脏中心
- 多伦多大学计算机科学系
- 多伦多大学实验室医学与病理生物学系
- Roche Canada 和 Genentech
使用方式
python
安装所需包
pip install datasets
加载数据集
from datasets import load_dataset
下载并加载数据集
dataset = load_dataset("wanglab/LUNA25-MedSAM2")
访问训练集
train_dataset = dataset["train"]
显示第一个示例
print(train_dataset[0])
引用要求
使用该数据集时需同时引用 LUNA25 和 MedSAM2: bash @misc{LUNA25-Image, doi = {10.5281/ZENODO.14223624}, url = {https://zenodo.org/doi/10.5281/zenodo.14223624}, author = {Peeters, Dré and Obreja, Bogdan and Antonissen, Noa and Jacobs, Colin}, keywords = {Lung Cancer, Artificial Intelligence, Computed Tomography, Radiologists, Computer-Aided Diagnosis}, title = {The LUNA25 Challenge: Public Training and Development set - Imaging Data}, publisher = {Zenodo}, year = {2025}, copyright = {Creative Commons Attribution 4.0 International} }
@misc{LUNA25-Annotation, doi = {10.5281/ZENODO.14673658}, url = {https://zenodo.org/doi/10.5281/zenodo.14673658}, author = {Peeters, Dré and Obreja, Bogdan and Antonissen, Noa and Jacobs, Colin}, keywords = {Lung Cancer, Artificial Intelligence, Computed Tomography, Radiologists, Computer-Aided Diagnosis}, title = {The LUNA25 Challenge: Public Training and Development set - Annotation Data}, publisher = {Zenodo}, year = {2025}, copyright = {Creative Commons Attribution Non Commercial 4.0 International} }
@article{MedSAM2, title={MedSAM2: Segment Anything in 3D Medical Images and Videos}, author={Ma, Jun and Yang, Zongxin and Kim, Sumin and Chen, Bihui and Baharoon, Mohammed and Fallahpour, Adibvafa and Asakereh, Reza and Lyu, Hongwei and Wang, Bo}, journal={arXiv preprint arXiv:2504.63609}, year={2025} }

中国农村教育发展报告
该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。
www.moe.gov.cn 收录
PROSLU
PROSLU数据集是由哈尔滨工业大学社会计算与信息检索研究中心和华为技术有限公司共同创建的,包含超过5000条中文语句,每条语句都配有详细的个人资料信息,如知识图谱、用户资料和上下文感知信息。数据集通过人工标注确保高质量,旨在解决在语义模糊的实际场景中,传统基于文本的口语理解模型可能无法准确识别意图和槽位的问题。该数据集的应用领域主要集中在提高对话系统在复杂环境下的理解和响应能力,特别是在用户意图不明确或语句具有多重含义的情况下。
arXiv 收录
CHIRPS v2.0
CHIRPS v2.0是一个全球降水数据集,提供高分辨率的降水估计,结合了卫星观测和气象站数据。数据集覆盖全球,时间范围从1981年至今,空间分辨率为0.05度。
www.chc.ucsb.edu 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
UAVDT
UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。
arXiv 收录