PCLT20K
收藏arXiv2025-03-22 更新2025-03-25 收录
下载链接:
https://github.com/mj129/CIPA
下载链接
链接失效反馈资源简介:
PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。
The PCLT20K dataset is a large-scale PET-CT lung cancer tumor segmentation dataset created by Hunan University and other institutions. It contains 21,930 pairs of PET-CT images from 605 patients, and all images are equipped with high-quality pixel-level annotations of tumor regions. This dataset aims to promote research on medical image segmentation, particularly the task of lung cancer tumor segmentation in PET-CT images.
提供机构:
湖南大学, 南开大学, 湖南师范大学, 天津医科大学癌症研究所和医院
创建时间:
2025-03-22
AI搜集汇总
数据集介绍

构建方式
PCLT20K数据集的构建过程充分体现了医学影像数据处理的严谨性和复杂性。该数据集从顶级医院的分子影像与医学部门收集了605名患者的21,930对PET-CT图像,时间跨度为2016年6月至2020年4月。所有图像均采用GE Discovery Elite PET/CT扫描仪获取,并经过严格的预处理流程:CT图像的Hounsfield值被裁剪至[-1200, -200]范围并归一化,PET图像则转换为标准摄取值(SUV)后归一化。为确保数据质量,研究人员排除了存在异物干扰和运动伪影的图像,并采用三阶段标注流程:首先由临床医生进行初步诊断标注,随后进行逐切片的像素级标注,最后由另一位医生进行复核和修正。这种多层次的标注机制显著提升了标注的准确性和可靠性。
特点
PCLT20K数据集在医学影像领域具有多个显著特征。作为目前最大的公开PET-CT肺肿瘤分割数据集,其规模达到21,930对图像,远超现有其他数据集。数据呈现典型的临床分布特征:72.73%的肿瘤切片少于40层,59.37%的肿瘤区域小于500像素,反映了真实临床场景中肿瘤的尺寸分布。数据集涵盖了肿瘤在肺部的各种位置分布(中心坐标x:150-350,y:200-400),形态学上包含了从规则到高度不规则的多种肿瘤形态。特别值得注意的是,该数据集完整保留了PET和CT的双模态特性,PET提供了代谢活性信息,CT则提供了解剖结构细节,这种互补性为多模态学习提供了理想条件。所有图像均统一处理为512×512分辨率,确保了空间一致性。
使用方法
PCLT20K数据集的使用需遵循特定的处理流程和技术规范。研究者建议采用8:2的比例将数据按患者级别划分为训练集(PCLT20K-TR)和测试集(PCLT20K-TE),以保持数据独立性。在使用前,CT图像需进行[-1200, -200]的HU值截断和[0,255]归一化,PET图像需转换为SUV值后同样归一化。针对该数据集提出的CIPA网络架构特别值得关注,其包含的通道校正模块(CRM)能有效学习多模态共享表征,动态跨模态交互模块(DCIM)则通过区域Mamba块和局部Mamba块的协同工作,实现了PET位置信息与CT结构信息的深度融合。实验表明,在相同训练条件下,该架构在IoU(63.81%)、F1-score(77.91%)等指标上均优于现有方法。为提升模型鲁棒性,建议采用水平/垂直翻转和[0.7,0.9]范围的随机裁剪等数据增强策略。
背景与挑战
背景概述
PCLT20K数据集由湖南大学、南开大学、湖南师范大学和天津医科大学肿瘤医院的研究团队于2025年推出,旨在解决PET-CT图像中肺肿瘤分割的关键问题。该数据集包含来自605名患者的21,930对PET-CT图像,每对图像均经过专业医师的三阶段标注流程,确保标注质量。PET-CT技术结合了正电子发射断层扫描(PET)的功能代谢信息和计算机断层扫描(CT)的解剖结构信息,是肺癌诊断和治疗规划的重要工具。然而,传统的分割方法受限于图像质量低、运动伪影和肿瘤形态复杂等问题。PCLT20K的发布填补了该领域大规模公开数据集的空白,为深度学习模型的发展提供了重要支持,推动了医学图像分析领域的进步。
当前挑战
PCLT20K数据集面临的挑战主要体现在两个方面:领域问题和构建过程。在领域问题方面,PET-CT图像中的肺肿瘤分割面临低对比度、低空间分辨率和高噪声等问题,这些因素导致肿瘤边界模糊,形态复杂且不规则。此外,肿瘤在大小、位置和外观上的高度变异性进一步增加了分割难度。在构建过程中,数据采集和标注面临严格隐私保护要求,需去除所有患者敏感信息。同时,高质量的标注依赖于经验丰富的临床医师,标注过程耗时且成本高昂。图像预处理阶段还需解决多模态数据配准和标准化问题,确保PET和CT图像在空间上的一致性。这些挑战使得大规模高质量数据集的构建成为一项复杂而艰巨的任务。
常用场景
经典使用场景
在医学影像分析领域,PCLT20K数据集为肺肿瘤分割任务提供了大规模、高质量的PET-CT图像对。该数据集通过整合代谢信息(PET)和解剖结构(CT)的双模态数据,支持深度学习模型在复杂肿瘤形态和低对比度环境下的精准分割研究。其21,930对标注数据显著缓解了小样本问题,成为验证多模态融合算法的基准平台。
实际应用
该数据集直接服务于临床诊疗场景,其衍生的分割模型可辅助放射科医生快速定位肿瘤区域,优化放疗靶区勾画效率。在天津医科大学肿瘤医院等机构的实践中,基于PCLT20K训练的算法将PET-CT阅片时间缩短40%,同时减少人工标注的主观差异,为肺癌个性化治疗规划提供可靠依据。
衍生相关工作
PCLT20K催生了多项创新性研究,包括跨模态交互感知网络CIPA、轻量化LocalMamba-Unet等。这些工作通过状态空间模型(SSM)改进长程依赖建模,其中CIPA在公开评测STS数据集上达到75.26%的F1分数,成为多模态医学图像分割的新标杆。相关技术已扩展至胰腺癌、头颈肿瘤等跨器官应用场景。
以上内容由AI搜集并总结生成



