five

PETWB-REP

收藏
arXiv2025-11-05 更新2025-11-07 收录
下载链接:
https://zenodo.org/record/7337365
下载链接
链接失效反馈
官方服务:
资源简介:
PETWB-REP是一个由复旦大学附属华山医院PET中心等机构创建的多癌症全身FDG PET/CT和放射学报告数据集,包含490名患者的全身18F-氟脱氧葡萄糖(FDG)正电子发射断层扫描/计算机断层扫描(PET/CT)图像及其相应的放射学报告。该数据集主要包含肺癌、肝癌、乳腺癌、前列腺癌和卵巢癌等常见癌症,包括配对的PET和CT图像、去标识的文本报告和结构化的临床元数据。数据集旨在支持医学影像、放射组学、人工智能和多模态融合研究。

PETWB-REP is a multi-cancer whole-body FDG PET/CT and radiology report dataset created by institutions including the PET Center of Huashan Hospital Affiliated to Fudan University. It contains whole-body 18F-fluorodeoxyglucose (FDG) positron emission tomography/computed tomography (PET/CT) images and their corresponding radiological reports from 490 patients. The dataset mainly covers common cancers such as lung cancer, liver cancer, breast cancer, prostate cancer and ovarian cancer, including paired PET and CT images, de-identified textual reports and structured clinical metadata. This dataset is intended to support research in medical imaging, radiomics, artificial intelligence and multimodal fusion.
提供机构:
复旦大学附属华山医院PET中心, 上海科学院人工智能研究院, 复旦大学脑科学研究院, 上海通用医疗影像诊断中心, 复旦大学人类表型研究院, 复旦大学数据科学学院
创建时间:
2025-11-05
搜集汇总
数据集介绍
main_image_url
构建方式
在肿瘤影像学研究领域,PETWB-REP数据集通过系统化流程整合了多模态医学数据。该数据集从上海全景医学影像诊断中心回顾性收集了490例经病理确诊的恶性肿瘤患者的全身FDG PET/CT扫描数据,严格遵循纳入排除标准筛选病例。所有影像数据均经过专业核医学医师撰写的中文放射学报告辅助解读,并通过双重校验流程完成英文翻译。数据预处理阶段采用分层匿名化处理,将DICOM格式转换为NIfTI标准格式,并对CT图像进行Z-score标准化,PET图像则根据DICOM元数据计算标准化摄取值。通过B样条插值算法实现PET与CT图像的空间配准,最终形成包含原始与处理后数据的完整体系。
使用方法
该数据集支持多维度的医学影像研究应用。在深度学习领域,可用于开发肿瘤检测、分割与分类模型,其多器官多癌种特性有助于提升算法泛化能力。自然语言处理研究可基于双语报告构建信息抽取管道,实现从自由文本中自动化提取病灶定位与量化特征。多模态融合研究则能探索影像特征与文本描述的互补价值,例如通过联合分析SUVmax数值与放射学语义构建预后预测模型。使用者可通过Zenodo存储库获取按受试者分层的标准化数据目录,其中影像数据按原始与处理版本分类存储,非影像数据则包含统一元数据表与双语报告文件,便于开展端到端的研究流程。
背景与挑战
背景概述
随着人工智能技术在医学影像分析领域的快速发展,多模态数据集成为推动精准医疗研究的关键资源。PETWB-REP数据集由复旦大学附属华山医院与上海人工智能实验室等机构于2021至2024年间联合构建,聚焦于全身FDG PET/CT影像与放射学报告的跨癌症类型整合。该数据集涵盖490例涵盖肺癌、肝癌等20余种恶性肿瘤的影像数据,通过融合代谢功能信息与解剖结构特征,为肿瘤分期、疗效评估及多模态人工智能模型开发提供了重要基础,显著填补了现有公共数据集中跨癌种多模态资源的空白。
当前挑战
在医学影像分析领域,全身PET/CT数据需解决多器官病灶异质性、代谢活性量化标准不统一等核心难题。数据集构建过程中面临三重挑战:其一,跨癌种影像特征差异导致通用模型开发困难;其二,多模态数据对齐需克服PET与CT影像的空间配准误差;其三,临床报告的双语转化与医学术语标准化要求严格的专家验证流程,同时原始数据的脱敏处理需在保留临床价值与保护患者隐私间取得平衡。
常用场景
经典使用场景
在肿瘤影像学研究中,PETWB-REP数据集作为多模态医学影像资源,常被用于开发全自动肿瘤检测与分割算法。其整合了全身FDG PET/CT影像与结构化放射学报告,支持从代谢活性与解剖结构双重视角定位恶性肿瘤病灶。研究者通过该数据集可构建跨器官、多癌种的通用模型,显著提升模型在复杂临床环境中的泛化能力,并为影像组学特征提取提供标准化数据基础。
解决学术问题
该数据集有效解决了多癌种影像数据稀缺导致的算法泛化性不足问题。通过提供涵盖肺癌、肝癌等20余种恶性肿瘤的配对PET/CT影像与报告,支持跨模态融合、肿瘤异质性分析等关键研究。其标准化预处理流程克服了传统医学影像数据中存在的模态配准不准、定量指标缺失等痛点,为构建可解释的AI诊断模型提供了不可或缺的验证平台。
实际应用
临床实践中,PETWB-REP为智能辅助诊断系统开发提供了核心数据支撑。基于该数据集训练的模型可实现病灶自动勾画、治疗反应评估等任务,显著提升影像科医生的工作效率。其多语言报告体系更推动了跨地域医疗协作,通过量化代谢参数与文本描述的关联分析,为个性化治疗方案制定提供了数据驱动的决策依据。
数据集最近研究
最新研究方向
在肿瘤影像学领域,PETWB-REP数据集正推动多模态人工智能研究的前沿探索。该数据集整合全身FDG PET/CT影像与结构化报告,为跨癌种泛化模型开发提供关键支撑。当前研究聚焦于三大方向:基于深度学习的病灶自动分割与定量分析,通过融合代谢与解剖信息提升肿瘤边界识别精度;自然语言处理技术在放射报告结构化解析中的应用,实现影像特征与文本描述的智能关联;多模态融合诊断模型的构建,结合影像组学特征与临床文本数据,探索肿瘤疗效预测与预后评估的新范式。这些研究不仅突破了单模态数据的局限性,更为个体化精准医疗提供了可扩展的技术框架。
相关研究论文
  • 1
    PETWB-REP: A Multi-Cancer Whole-Body FDG PET/CT and Radiology Report Dataset for Medical Imaging Research复旦大学附属华山医院PET中心, 上海科学院人工智能研究院, 复旦大学脑科学研究院, 上海通用医疗影像诊断中心, 复旦大学人类表型研究院, 复旦大学数据科学学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作