PMPBench
收藏arXiv2026-01-22 更新2026-01-24 收录
下载链接:
https://github.com/YifanChen02/PMPBench
下载链接
链接失效反馈官方服务:
资源简介:
PMPBench是由剑桥大学等机构联合推出的首个公开、全配对、跨癌种医学影像数据集,涵盖11个人体器官的对比增强与非增强扫描数据。该数据集包含2642例精心配对的CT和MRI影像,覆盖19种癌症类型,数据源自TCIA等公开仓库并经过严格的医学预处理和放射科专家验证。通过标准化流程实现解剖结构对齐,支持1→1、N→1等跨模态翻译任务的基准测试,旨在推动肿瘤影像学中安全对比剂合成的算法研究,解决临床资源受限场景下的诊断需求。
PMPBench is the first publicly available fully paired cross-cancer medical imaging dataset jointly developed by the University of Cambridge and other institutions. It encompasses contrast-enhanced and non-contrast-enhanced scanning data for 11 human organs. This dataset includes 2642 meticulously paired CT and MRI imaging cases spanning 19 cancer types, with its data sourced from public repositories such as TCIA and having undergone rigorous medical preprocessing and validation by radiologists. It achieves anatomical structure alignment via standardized workflows, and supports benchmark testing for cross-modal translation tasks such as 1→1 and N→1. This dataset aims to advance algorithmic research on safe contrast agent synthesis in oncological imaging, and address the diagnostic demands in clinical scenarios with limited resources.
提供机构:
剑桥大学; MD安德森癌症中心; 邓迪大学
创建时间:
2026-01-22
原始信息汇总
数据集概述:PairedContrast
数据集基本信息
- 数据集名称:PairedContrast
- 主要用途:医学图像翻译(Image-to-Image Translation)
- 模态:包含磁共振成像(MR)和计算机断层扫描(CT)两种模态的配对对比增强图像数据。
数据集结构与内容
磁共振成像(MR)数据
脑部(Brain)
- 原始数据:组织为
Brain_MR_train_val_test目录,包含train、val、test三个子集。 - 数据格式:原始数据为
.nii.gz格式的3D医学图像文件。 - 序列类型:每个病例包含多种MRI序列,包括
t1、t1Gd(T1对比增强)、t2、flair。 - 标注信息:提供肿瘤分割掩码文件(
GlistrBoost.nii.gz),部分病例包含人工矫正后的掩码(GlistrBoost_ManuallyCorrected.nii.gz)。 - 处理后数据:提供将
t1和t1ce序列左右拼接处理后的.png格式图像,组织在T1_T1CE目录下,同样按train、val、test划分。 - 临床数据:包含
survival_evaluation.csv文件。
乳腺(Breast)
- 原始数据:组织为
Breast_MR_train_val_test目录,包含train、val、test三个子集。 - 数据来源:合并了三个公开的乳腺癌数据集。
- 数据格式:原始提供
.mat格式文件,后续计划处理为.nii格式。 - 数据内容:包含背景实质增强(
bpe)、动态对比增强不同时相数据(dce1,dce2,dce3)、信号增强比(ser)以及肿瘤分割掩码(tumor,tumor1)。 - 处理后数据:计划提供处理后的
.nii版本数据,目录结构为breast_train_val_test。 - 临床数据:包含
survival_evaluation.csv文件。
计算机断层扫描(CT)数据
所有CT数据子集均遵循相似的组织结构,包含 train、val、test 划分,每个病例包含平扫(CT.nii)和对比增强(CTC.nii)两种图像,并最终提供将两者左右拼接处理后的 .png 格式图像(位于 T1_T1CE 目录下)。每个子集均包含 survival_evaluation.csv 文件。
包含以下器官/部位的数据:
-
子宫与卵巢(Uterus Ovary)
- 目录:
Uterus_Ovary_CT_train_val_test
- 目录:
-
肾上腺(Adrenal)
- 目录:
Adrenal_CT_train_val_test
- 目录:
-
膀胱与肾脏(Bladder Kidney)
- 目录:
Bladder_Kidney_CT_train_val_test
- 目录:
-
肺部(Lung)
- 目录:
Lung_CT_train_val_test
- 目录:
-
胃、结肠、肝脏、胰腺(Stomach Colon Liver Pancreas)
- 目录:
Stomach_Colon_Liver_Pancreas_CT_train_val_test
- 目录:
基准方法(Baseline)
数据集README中列举了用于医学图像翻译任务的多种前沿方法作为基准,包括:
- 流匹配(Flow Matching)
- 扩散模型(Diffusion)
- 流常微分方程(Flow ODE)
- Transformer
- Mamba
这些基准方法以表格形式列出,包含论文链接、发表会议/期刊等信息,但未指明其在本数据集上的具体性能结果。
数据访问与引用
- 代码仓库地址:https://github.com/YifanChen02/PMPBench
- 引用信息:README文件中预留了引用格式部分,但具体引用内容暂未提供。
搜集汇总
数据集介绍

构建方式
在医学影像分析领域,高质量配对数据的稀缺长期制约着对比增强图像合成研究的发展。PMPBench的构建遵循严谨的临床标准,从TCIA等公开数据源中筛选出涵盖11个人体器官的配对CT与MRI扫描。其核心流程包括数据收集、质量过滤、配对验证及空间配准:首先通过自动化元数据解析识别对比增强与非增强扫描,随后由经过认证的放射科医师团队进行人工验证与标注,确保模态标签的准确性;最后采用刚性、仿射及可变形配准技术,确保不同模态图像间的解剖结构精确对齐,并经过统一的裁剪、重采样与强度归一化处理,最终形成一个空间对齐、质量可控的配对多模态数据集。
特点
PMPBench的突出特点在于其广泛的器官覆盖与严谨的配对设计。作为首个公开的全配对、跨癌种医学影像基准,它突破了以往数据集多局限于单器官(如脑部)的局限,系统性地涵盖了呼吸、消化、泌尿、内分泌及女性生殖等五大解剖系统的11个关键器官。数据集不仅提供了完整的动态对比增强MRI序列,还包含了配对的非增强与增强CT扫描,实现了跨模态的解剖对应。这种设计支持从1对1、N对1到1对N等多种图像翻译任务的系统评估,为研究复杂临床场景下的缺失模态合成提供了前所未有的实验平台。
使用方法
该数据集旨在为医学图像翻译与缺失模态合成研究提供标准化的评估基准。研究者可利用其提供的训练、验证与测试划分,开发并评估生成模型在多种任务设定下的性能,例如从非增强CT合成增强CT,或根据早期DCE-MRI相位预测后续相位。数据集附带的基准结果涵盖了直接监督、生成对抗网络、扩散模型及流匹配等多种主流方法,为性能比较提供了参考。使用前,用户需通过项目网站提交协议并获取下载许可,遵守CC BY-NC-ND 4.0许可协议,确保数据用于非商业研究目的。
背景与挑战
背景概述
在医学影像学领域,对比剂对于增强病灶显影、提升肿瘤检测灵敏度具有关键作用,但其使用常受限于患者健康状况与医疗资源。为探索基于人工智能的无对比剂影像合成技术以优化临床工作流程,剑桥大学、MD安德森癌症中心等机构的研究团队于2026年发布了PMPBench数据集。作为首个公开、全配对、跨11个人体器官的泛癌症医学影像基准,该数据集涵盖了动态对比增强磁共振成像的完整序列以及配对的计算断层扫描对比与非对比影像,旨在为多模态图像翻译与缺失模态合成研究提供高质量资源,推动肿瘤影像学中安全、有效的对比合成方法发展。
当前挑战
PMPBench致力于解决医学影像中跨模态翻译与缺失模态合成的核心挑战,其首要任务是在缺乏对比剂的情况下,从非对比扫描中精确合成对比增强图像,以辅助肿瘤诊断。这一领域问题的复杂性在于模型必须准确捕捉不同器官的解剖结构、对比剂动态摄取的时间特性以及模态间的复杂映射关系。在数据集构建过程中,研究团队面临多重挑战:现有公共数据集多局限于脑部影像且缺乏显式的对比-非对比配对;其他多器官数据存在模态或时间戳缺失、空间对齐不完善的问题;原始数据中常缺少对CT与CTC或DCE各阶段的明确标注;此外,大量高质量多模态资源仍属私有,限制了社区范围的基准测试与算法比较。
常用场景
经典使用场景
在医学影像分析领域,PMPBench数据集为对比增强图像合成研究提供了标准化评估平台。该数据集最经典的使用场景是支持多模态图像翻译任务,特别是针对计算机断层扫描(CT)和磁共振成像(MRI)中对比增强与非增强图像之间的相互转换。研究者利用其完全配对的特性,系统评估从单一非对比输入生成对比增强图像的生成模型性能,涵盖从基础的一对一转换到复杂的多对多转换等多种设定,为模型在跨器官、跨模态场景下的泛化能力提供了严谨的测试基准。
实际应用
该数据集的实际应用场景紧密关联临床肿瘤学工作流程。在临床实践中,患者可能因肾功能不全或医疗资源限制而无法接受对比剂注射,导致影像诊断信息不全。基于PMPBench训练的模型能够从常规非对比扫描中合成出具有诊断价值的对比增强图像,辅助放射科医生更清晰地辨识肿瘤病灶与血管结构。这种技术有望优化临床路径,减少对比剂相关风险,并在资源有限的环境中提升肿瘤检测的灵敏度与可靠性,直接服务于消化系统、泌尿系统、呼吸系统等多器官肿瘤的影像诊断与评估。
衍生相关工作
围绕PMPBench数据集,已衍生出一系列经典的图像翻译与生成模型研究工作。数据集论文本身提出了FlowMI模型,这是一种基于流匹配的缺失模态填补框架,通过潜在空间重构处理任意缺失模式。此外,研究团队利用该基准系统评估了包括直接监督方法(如UNet、ResViT)、生成对抗网络(如CycleGAN、Pix2Pix)、扩散模型(如Palette)以及多种流匹配方法(如ConcatFM、DirectFM)在内的代表性基线。这些工作共同确立了多器官对比合成任务的性能标杆,并为后续研究探索更鲁棒、更精准的跨模态生成模型提供了重要参照。
以上内容由遇见数据集搜集并总结生成



