CT-PET Dataset|医学影像数据集|癌症诊断数据集

arXiv2024-10-29 更新2024-10-31 收录

医学影像

癌症诊断

下载链接：

https://github.com/thanhhff/CPDM

下载链接

链接失效反馈

资源简介：

CT-PET数据集是由越南河内科学与技术大学和日本名古屋大学等机构创建的，是目前最大的CT-PET配对图像数据集，包含2,028,628对CT和PET图像。数据集涵盖了广泛的解剖区域，从头部到上大腿区域，图像以DICOM格式存储，包含详细的元数据。数据集的创建旨在支持CT到PET图像翻译模型的训练和评估，特别是在癌症诊断和治疗监测方面。通过结合领域知识，如注意力图和衰减图，数据集的应用旨在提高PET图像生成的准确性和诊断信息的质量。

提供机构：

越南河内科学与技术大学, 日本名古屋大学, 越南108军中央医院, 越南Vin大学, 日本国立先进工业科学技术研究所

创建时间：

2024-10-29

原始信息汇总

CT to PET Translation: A Large-scale Dataset and Domain-Knowledge-Guided Diffusion Approach

数据集概述

数据集名称: CT/PET Dataset
数据集规模: 包含2,028,628对PET-CT图像
数据集示例: 请参考CTPET_DATASET文件夹查看数据集样本

数据准备

数据路径格式: yaml your_dataset_path/train/A # 训练参考 your_dataset_path/train/B # 训练真实值 your_dataset_path/val/A # 验证参考 your_dataset_path/val/B # 验证真实值 your_dataset_path/test/A # 测试参考 your_dataset_path/test/B # 测试真实值

引用

论文引用:

@inproceedings{nguyen2025CPDM, title = {CT to PET Translation: A Large-scale Dataset and Domain-Knowledge-Guided Diffusion Approach}, author = {Nguyen, Dac Thai and Nguyen, Trung Thanh and Nguyen, Huu Tien and Nguyen, Thanh Trung and Pham, Huy Hieu and Nguyen, Thanh Hung and Truong, Thao Nguyen and Nguyen, Phi Le}, booktitle = {Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision}, year = {2025}, }

AI搜集汇总

数据集介绍

构建方式

CT-PET数据集的构建基于大规模的医学影像数据，涵盖了2,028,628对CT-PET图像，这些图像来自3,454名患者的研究。数据集的构建过程中，严格遵循隐私和伦理指南，确保所有病理标签被彻底移除。每项研究包含约250-500对从头部到上大腿区域的CT和PET切片。图像以DICOM格式存储，包含像素数据和相关元数据，如患者年龄、性别、体重、注射放射性示踪剂的活性等。特别地，PET图像通过相应的CT数据进行了衰减校正。

特点

CT-PET数据集的主要特点在于其规模之大和多样性之广。该数据集不仅包含了大量配对的CT和PET图像，还覆盖了广泛的解剖区域，包括从头部到上大腿的多个部位。此外，数据集中的图像经过了严格的衰减校正，确保了PET图像的准确性和诊断信息的可靠性。这些特点使得该数据集成为开发和评估高级医学图像翻译方法的宝贵资源。

使用方法

CT-PET数据集适用于多种医学图像翻译任务，特别是CT到PET图像的生成。研究人员可以使用该数据集来训练和评估基于生成对抗网络（GAN）和扩散模型的图像翻译模型。数据集的子集可用于实验，而完整数据集则可用于更深入的研究和模型优化。使用时，建议将图像标准化为256×256×1的分辨率，并进行归一化处理，以确保模型训练的稳定性和结果的一致性。

背景与挑战

背景概述

CT-PET数据集是由越南河内科学与技术大学、日本名古屋大学、越南108军事中央医院、越南VinUniversity以及日本国立先进工业科学技术研究所的Dac Thai Nguyen等研究人员于2024年创建的。该数据集的核心研究问题是如何从CT图像生成PET图像，以降低医疗检查成本和减少患者的健康风险。这一研究在癌症诊断、分期和监测中具有重要意义，因为PET和CT成像在临床应用中具有不可替代的作用。通过引入条件扩散模型CPDM，并提供迄今为止最大的CT-PET数据集，该研究不仅推动了图像翻译技术的发展，还为医学影像领域提供了宝贵的资源。

当前挑战

CT-PET数据集面临的挑战主要集中在图像翻译领域，特别是从CT到PET的翻译任务。首先，现有的图像翻译研究大多集中在相似模态之间的转换，如MRI T1到MRI T2，而CT到PET的跨模态翻译研究相对匮乏。其次，生成模型在生成过程中存在固有的随机性，难以保证生成图像的准确性和一致性。此外，医学图像翻译领域，尤其是CT到PET翻译，数据稀缺问题严重，限制了模型的训练和性能提升。这些挑战不仅影响了图像翻译技术的应用效果，也制约了其在临床诊断中的实际价值。

常用场景

经典使用场景

在医学影像领域，CT-PET数据集的经典使用场景主要集中在从CT图像生成PET图像的任务上。这一任务的核心在于利用计算资源丰富的CT图像，通过先进的图像翻译技术，生成高质量的PET图像，从而减少对放射性物质的依赖和降低医疗成本。通过这种方式，研究人员和临床医生能够更高效地进行疾病诊断、分期和治疗监测，特别是在癌症管理方面。

解决学术问题

CT-PET数据集的引入解决了医学影像领域中从CT图像到PET图像翻译的学术难题。这一数据集不仅提供了大规模的配对图像，还通过条件扩散模型（CPDM）结合领域知识，显著提升了生成PET图像的质量和准确性。这不仅推动了图像翻译技术的发展，还为医学影像分析提供了新的研究方向，特别是在提高诊断精度和减少患者健康风险方面具有重要意义。

衍生相关工作

CT-PET数据集的发布和相关研究催生了多项经典工作。例如，基于该数据集的条件扩散模型（CPDM）不仅在图像翻译任务中表现出色，还启发了其他研究者在医学影像翻译领域的创新。此外，该数据集还促进了GAN和扩散模型在医学影像处理中的应用研究，推动了整个领域的发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Open Power System Data

Open Power System Data is a free-of-charge data platform dedicated to electricity system researchers. We collect, check, process, document, and publish data that are publicly available but currently inconvenient to use. The project is a service provider to the modeling community: a supplier of a public good. Learn more about its background or just go ahead and explore the data platform.

re3data.org 收录

新能源光伏功率预测数据

采集数值天气预报数据、实时环境气象数据、光伏电站实时输出功率数据等信息，通过气象预测模型与功率预测算法，实现对光伏电站未来一段时间内气象数据及功率数据的预测。

安徽省数据知识产权登记平台收录

Desert Knowledge Australia Solar Centre PV Power Data

该数据集包含来自澳大利亚Alice Springs的Site 7的太阳能发电数据，包括有功功率（AP，kW）、历史温度（T，℃）、相对湿度（RH，%）、全球水平辐照度（GHI，Wh/m²）和漫射水平辐照度（DHI，Wh/m²）。

github 收录

中国区域教育数据库

该数据集包含了中国各区域的教育统计数据，涵盖了学校数量、学生人数、教师资源、教育经费等多个方面的信息。

www.moe.gov.cn 收录

SKIPP’D

SKIPP’D数据集由斯坦福大学的环境评估与优化（EAO）组创建，旨在为基于图像的短期太阳能预测研究提供标准化基准。数据集包含2017至2019年三年的高质量控制下采样的天空图像和光伏发电数据，适合深度学习模型开发。此外，还提供了高分辨率、高频率的天空图像和光伏发电数据，以及相应的视频片段，以支持研究灵活性。数据集的应用领域包括天空图像分割、云类型分类和云运动预测，旨在解决太阳能预测中的短期波动问题。

arXiv 收录