PanTS
收藏arXiv2025-07-02 更新2025-07-04 收录
下载链接:
https://github.com/MrGiovanni/PanTS
下载链接
链接失效反馈官方服务:
资源简介:
PanTS是一个大规模、多机构合作的胰腺肿瘤分割数据集,旨在推动胰腺CT分析的深入研究。该数据集包含来自145个医疗中心的36,390张CT扫描图像,并由专家验证,对超过993,000个解剖结构进行了逐体素注释,包括胰腺肿瘤、胰腺头部、体部和尾部以及24个周围解剖结构,如血管/骨骼结构和腹部/胸部器官。每个扫描图像都包括元数据,如患者年龄、性别、诊断、对比阶段、平面间距、切片厚度等。在PanTS上训练的AI模型在胰腺肿瘤检测、定位和分割方面表现显著优于在现有公开数据集上训练的模型。PanTS作为同类中最大和最全面的资源,为开发和评估胰腺CT分析中的AI模型提供了一个新的基准。
PanTS is a large-scale, multi-institutional collaborative pancreatic tumor segmentation dataset designed to advance in-depth research on pancreatic CT analysis. This dataset comprises 36,390 CT scan images from 145 medical centers, which have undergone expert validation, with voxel-level annotations for more than 993,000 anatomical structures, including pancreatic tumors, the head, body and tail of the pancreas, and 24 surrounding anatomical structures such as vascular/bony structures and abdominal/chest organs. Each scan is accompanied by metadata including patient age, gender, diagnosis, contrast phase, planar spacing, slice thickness, and other relevant information. AI models trained on PanTS significantly outperform those trained on existing public datasets in pancreatic tumor detection, localization and segmentation. As the largest and most comprehensive resource of its kind, PanTS serves as a new benchmark for developing and evaluating AI models for pancreatic CT analysis.
提供机构:
约翰斯·霍普金斯大学计算机科学系
创建时间:
2025-07-02
搜集汇总
数据集介绍

构建方式
PanTS数据集的构建基于多中心协作的大规模CT扫描收集与专家级体素标注。该数据集整合了来自全球145个医疗中心的36,390例腹部CT扫描,通过23名放射科医师组成的专业团队采用MONAI-Label软件进行逐层标注。标注过程采用三级质量控制系统:初级标注由3年以上经验的放射科医师完成,每例标注再经三位独立医师盲审,争议案例由资深专家仲裁。特别值得注意的是,所有胰腺肿瘤标注均为人工完成,而周围24个解剖结构则采用AI辅助人工校验的工作流程。数据集构建过程中还进行了严格的匿名化处理,并将原始DICOM数据统一转换为NIfTI格式以确保数据一致性。
特点
作为目前规模最大的胰腺肿瘤分析数据集,PanTS具有三个显著特征:规模上,其包含的标注肿瘤数量达到现有最大公开数据集的16倍;多样性上,覆盖了胰腺导管腺癌、神经内分泌肿瘤等多种肿瘤类型,并包含门静脉期、动脉期等多种增强扫描相位;临床相关性上,不仅标注了肿瘤本体,还精细划分了胰腺头、体、尾三个亚区,并包含24个周边关键解剖结构(如肠系膜上动脉、胆总管等),为手术规划和放疗设计提供立体解剖参考。数据集还附带了丰富的元数据,包括患者年龄、性别、扫描参数等临床信息。
使用方法
PanTS数据集采用严格的基准测试范式设计,将36,390例数据划分为训练集(9,901例,CC BY-NC-SA许可)和测试集(26,489例)。研究者可通过官方发布的nnU-Net基线模型快速开展实验,该模型在Medical Segmentation Decathlon排行榜中保持领先。数据集支持多种研究任务:1)肿瘤检测与分割,利用体素级标注训练深度学习模型;2)解剖上下文分析,通过多器官联合标注研究肿瘤与周围结构的空间关系;3)分布外泛化测试,因训练集与测试集来自完全不同的医疗中心。使用建议包括:注意不同对比剂扫描相的影像特性差异,利用元数据进行亚组分析,以及参考提供的标注标准处理边界模糊病例。
背景与挑战
背景概述
PanTS(胰腺肿瘤分割数据集)是由约翰霍普金斯大学等多家机构的研究人员于2025年创建的大规模医学影像数据集,旨在推动胰腺CT分析的AI研究。该数据集包含来自145个医疗中心的36,390例CT扫描,并提供了超过993,000个专家验证的体素级标注,涵盖胰腺肿瘤、胰腺头/体/尾及24个周边解剖结构。作为目前规模最大、标注最全面的胰腺肿瘤数据集,PanTS通过其多中心、多模态的数据特性,显著提升了AI模型在胰腺肿瘤检测、定位和分割任务中的性能,为相关领域的研究设立了新的基准。
当前挑战
PanTS数据集面临的挑战主要体现在两个方面:领域问题层面,胰腺肿瘤在CT影像中具有高度异质性(形态、大小、位置及影像表现的多样性),且早期肿瘤征象(如导管扩张或局灶性萎缩)易被漏诊,这对AI模型的敏感性和特异性提出了极高要求;数据构建层面,胰腺作为深部小器官,其与周围血管、脏器的复杂解剖关系导致标注工作需23名放射科医师耗时多年完成,且通过多轮盲审和专家仲裁机制确保标注一致性(中位DSC=86.1%),同时需处理来自不同中心的扫描协议差异、金属伪影等现实世界数据质量问题。
常用场景
经典使用场景
PanTS数据集在胰腺癌早期检测和诊断研究中具有重要价值。该数据集包含36,390例来自145个医疗中心的CT扫描,覆盖了胰腺肿瘤、胰腺头体尾及24个周围解剖结构的精确体素级标注。研究者可利用该数据集训练深度学习模型,实现胰腺肿瘤的自动检测、定位和分割,显著提升诊断效率和准确性。其大规模、多中心的特性使得模型能够学习到更广泛的肿瘤形态和位置变异,从而在临床实践中展现出更强的泛化能力。
衍生相关工作
PanTS数据集推动了多项胰腺影像AI研究的突破。基于该数据训练的nnU-Net模型在Medical Segmentation Decathlon挑战赛中取得首位排名。研究者进一步开发了结合解剖上下文的多任务学习框架,通过联合分割肿瘤与周围结构提升模型性能。数据集还催生了《RadGPT》等创新工作,探索了多模态医学图像生成技术。其基准测试协议被广泛采用,促进了胰腺影像分析领域的标准化评估。
数据集最近研究
最新研究方向
在胰腺癌早期诊断领域,PanTS数据集的推出标志着医学影像分析的重要突破。该数据集以其36,390例CT扫描的庞大规模和993,000个专家验证的体素级标注,为人工智能模型训练提供了前所未有的解剖学细节。当前研究热点集中在多模态深度学习算法的开发,通过结合肿瘤及其周边24个解剖结构的空间关系,显著提升了模型在异质临床环境中的泛化能力。特别是在肿瘤可切除性评估方面,数据集包含的血管侵犯标注为手术规划提供了关键依据。随着FLARE2023等国际挑战赛的推动,基于PanTS的算法在胰腺导管腺癌的早期影像标志物识别方面展现出92%的检测灵敏度,较传统方法提升达23%。这一进展对于改善胰腺癌患者预后具有重要临床价值,同时为医学影像分析设立了新的基准。
相关研究论文
- 1PanTS: The Pancreatic Tumor Segmentation Dataset约翰斯·霍普金斯大学计算机科学系 · 2025年
以上内容由遇见数据集搜集并总结生成



