Angelou0516/PI-CAI
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Angelou0516/PI-CAI
下载链接
链接失效反馈官方服务:
资源简介:
PI-CAI数据集(前列腺影像-癌症AI挑战公共训练与开发数据集)包含来自1,476名患者的1,500个双参数MRI(bpMRI)研究,这些数据采集于2012至2021年间的四个荷兰中心(RUMC、ZGT、PCNN、UMCG)。该数据集主要用于临床显著性前列腺癌(csPCa,ISUP ≥ 2)的检测和分割。数据模态包括轴向/冠状/矢状T2W、轴向高b值(≥ 1000 s/mm²)DWI和轴向ADC。数据集包含1,075例良性(ISUP ≤ 1)和425例csPCa阳性(ISUP ≥ 2)病例,总大小约为26 GB(图像)和139 MB(标签)。数据集结构包括图像和标签,标签部分包含人类专家和AI生成的前列腺癌病灶分割掩模、全前列腺腺体分割掩模以及临床信息。需要注意的是,数据集中的模态未进行配准,ADC强度未标准化,且没有固定的训练/验证/测试集划分。数据集采用CC BY-NC 4.0许可。
The PI-CAI (Prostate Imaging - Cancer AI Challenge) Public Training & Development dataset contains 1,500 biparametric MRI (bpMRI) studies from 1,476 patients acquired at four Dutch centers (RUMC, ZGT, PCNN, UMCG) between 2012 and 2021. The dataset is designed for clinically significant prostate cancer (csPCa, ISUP ≥ 2) detection and segmentation. It includes axial/coronal/sagittal T2W, axial high-b-value (≥ 1000 s/mm²) DWI, and axial ADC modalities. The dataset comprises 1,075 benign (ISUP ≤ 1) and 425 csPCa-positive (ISUP ≥ 2) cases, with a total size of approximately 26 GB (images) and 139 MB (labels). The data structure includes images and labels, with the latter containing human expert and AI-generated csPCa lesion segmentation masks, whole-prostate-gland segmentation masks, and clinical information. Important caveats include the lack of co-registration across modalities, non-standardized ADC absolute intensities across centers, and no fixed train/val/test split. The dataset is licensed under CC BY-NC 4.0.
提供机构:
Angelou0516
搜集汇总
数据集介绍

构建方式
PI-CAI数据集汇聚了来自四家荷兰医学中心(RUMC、ZGT、PCNN、UMCG)在2012至2021年间采集的1,500例双参数磁共振成像(bpMRI)研究,涵盖1,476名患者。数据集以患者身份标识为核心组织图像与标签,图像包含轴向、冠状、矢状T2加权成像(T2W)、高b值弥散加权成像(DWI)以及表观弥散系数(ADC)序列,并以MHA格式存储。标签体系包括由专家放射科医生监督下生成的临床显著性前列腺癌(csPCa)病灶分割掩膜(含ISUP等级0/2/3/4/5多类标注)、AI生成的病灶掩膜以及全前列腺腺体与区域分割掩膜,此外还提供PSA、ISUP评分等临床信息,形成了多层次、多来源的标注结构。
特点
该数据集的核心特点在于其多中心、多模态的异质性以及针对csPCa的精细标注。1,500例样本中包含了1,075例良性(ISUP≤1)与425例csPCa阳性(ISUP≥2)病例,类别分布贴近真实临床场景。尤其值得关注的是,图像序列并未进行配准,T2W、DWI与ADC序列具有不同的分辨率,且ADC的绝对强度值未经标准化,这为算法鲁棒性提出了切实挑战。标注方面,推荐使用的人类专家标注掩膜覆盖全部1,500例病例,并带有细粒度的ISUP多类别标签,远超常规的二元分割,为病灶的精确检测与风险分层提供了珍贵监督信息。
使用方法
研究者可依据任务导向灵活运用本数据集。对于csPCa病灶分割,官方推荐使用labels/csPCa_lesion_delineations/human_expert/resampled/目录下1,295例经重采样至T2W轴向几何的专家掩膜,结合Pooch25目录中补充的205例最新标注,即可获得完整的1,500例专家标签集。全前列腺腺体分割可使用anatomical_delineations/whole_gland/AI/Bosma22b/下的AI衍生掩膜,但需注意其可能存在的分割误差。临床信息可通过marksheet.csv便捷获取。为解决模态间未配准问题,建议采用picai_prep预处理工具包进行图像对齐与标准化。模型训练与评估的交叉验证划分可参考原始Zenodo发布中的fold0至fold4,或自行定义训练/验证/测试拆分。
背景与挑战
背景概述
PI-CAI(Prostate Imaging - Cancer AI)挑战数据集由荷兰内梅亨大学医学中心等机构的研究人员于2022年创建,旨在推动前列腺癌MRI人工智能检测与分割的发展。该数据集包含1,500例来自四家荷兰医疗中心(2012-2021年采集)的双参数MRI(bpMRI)研究,涵盖T2W、DWI及ADC序列,并提供了专家标注的临床显著性前列腺癌(csPCa,ISUP≥2)病灶分割掩膜。作为《The Lancet Oncology》2024年发表的国际验证研究核心数据源,PI-CAI已成为前列腺癌MRI人工智能领域最具影响力的基准之一,有效促进了计算机辅助诊断系统在真实临床场景中的可重复性评估与性能比较。
当前挑战
该数据集所解决的领域问题聚焦于利用双参数MRI实现csPCa的精准检测与分割,核心挑战在于多中心MRI数据在采集参数、信噪比及解剖形态上的高度异质性,以及ADC绝对强度无跨中心标准化导致的泛化困难。构建过程中面临的多模态未配准难题尤为显著:T2W、DWI与ADC序列间未进行空间对齐,仅少量病例经手动配准,迫使模型需自行学习跨模态特征对应关系。此外,专家标注成本高昂造成初始仅1,295例享有完整人工掩膜,需依赖205例AI生成的半监督标签补充,直至后续补充标注才实现全量数据覆盖。
常用场景
经典使用场景
PI-CAI数据集是前列腺癌影像人工智能研究领域的权威资源,其经典使用场景聚焦于基于双参数磁共振成像的临床显著性前列腺癌检测与分割任务。该数据集包含来自1,476名患者的1,500例bpMRI研究,提供了T2W、高b值DWI和ADC序列图像,并配有专家标注的csPCa病灶掩膜。研究者可借此构建和评估深度学习模型,实现对前列腺癌病灶的自动定位与分割,为临床决策支持系统提供关键技术支撑。
实际应用
在实际临床场景中,PI-CAI数据集训练的人工智能模型可部署于影像科工作流程,辅助放射科医师对bpMRI进行初步筛查和病灶标记。这类工具能够有效识别csPCa高风险区域,生成定量化的病灶特征分析报告,从而提升诊断效率与准确性。此外,该数据集支持开发面向基层医疗机构或资源有限区域的低成本、自动化前列腺癌筛查方案,减少对高年资放射专家的依赖,推动精准医疗的普及与均质化。
衍生相关工作
基于PI-CAI数据集,学术界已涌现出一系列经典工作。PI-CAI国际挑战赛本身即汇聚了全球团队提出的多种创新解决方案,涵盖基于U-Net及其变体的分割架构、注意力机制引导的特征融合方法,以及半监督学习框架等。后续研究中,有工作探索了跨中心泛化性能的提升策略,如域自适应和对抗训练;另有研究利用该数据集验证了多任务学习框架同时进行病灶检测与ISUP分级预测的可行性。这些衍生工作共同构建了前列腺bpMRI智能分析的坚实基础,并持续推动该领域的技术迭代与验证标准建立。
以上内容由遇见数据集搜集并总结生成



