ViMed-PET-CT

Hugging Face2026-04-11 更新2026-04-12 收录

下载链接：

https://huggingface.co/datasets/thainamhoang/ViMed-PET-CT

下载链接

链接失效反馈

官方服务：

资源简介：

ViMed-PET-CT数据集是一个经过优化压缩的医学影像数据集，源自ViMed-PET，将原有的.npy和分块zip文件转换为.npz格式，并提供了更好的标注和指南。数据集包含2017、2018、2019和2023年的数据，每位患者的数据包括基本元数据（性别、身高、体重）、CT扫描、PET扫描以及生成的报告。此外，数据集还包含一个独立的`medical_test_set/`文件夹。CT扫描的尺寸为(313, 512, 512)，PET扫描的尺寸为(313, 256, 256)。元数据文件`metadata.csv`包含了性别、身高、体重、年份、PET和CT的路径以及报告路径等信息。该数据集适用于图像到文本、文本生成和图像文本到文本等任务，规模在1K到10K之间。数据集采用cc-by-4.0许可，并引用于一项关于医学数据视觉语言基础模型的研究。

ViMed-PET-CT dataset is an optimized and compressed medical imaging dataset derived from ViMed-PET. It converts the original .npy and chunked zip files into .npz format, and provides improved annotations and guidelines. The dataset contains data from the years 2017, 2018, 2019 and 2023. For each patient, the data includes basic metadata (gender, height, weight), CT scans, PET scans and generated reports. Additionally, the dataset contains a standalone `medical_test_set/` folder. The dimensions of CT scans are (313, 512, 512), while those of PET scans are (313, 256, 256). The metadata file `metadata.csv` contains information such as gender, height, weight, year, paths of PET and CT scans, and report paths. This dataset is applicable to tasks including image-to-text, text generation and image-text-to-text, with a scale ranging from 1K to 10K. The dataset is licensed under CC BY 4.0, and has been cited in a study on visual-language foundation models for medical data.

创建时间：

2026-04-11

搜集汇总

数据集介绍

构建方式

在医学影像与自然语言处理的交叉领域，ViMed-PET-CT数据集通过系统整合越南患者的多模态临床数据构建而成。该数据集源自对原始ViMed-PET数据集的优化重构，将分散的.npy文件与分块压缩档案统一转换为高效的.npz格式，并完善了标注与指导文档。数据覆盖2017年8月至12月、2018年全年（除5-6月）、2019年部分月份及2023年全年，每个样本均包含患者性别、身高、体重等元数据，以及配对的CT扫描、PET扫描和生成的医学报告，形成结构化的多模态医学记录。

特点

ViMed-PET-CT数据集的核心特点在于其严谨的多模态对齐与时空跨度。数据集不仅提供标准化的CT与PET三维影像序列——分别具有(313, 512, 512)和(313, 256, 256)的固定维度，还同步附带了由影像生成的文本报告，实现了视觉信息与语言描述的直接关联。其时间跨度跨越六年，涵盖不同年份的季节性分布，为研究医学影像报告的时序变化提供了基础。独立的medical_test_set文件夹与包含完整路径指引的metadata.csv进一步增强了数据集的易用性与可复现性。

使用方法

该数据集适用于医学影像报告生成、多模态医学基础模型训练等前沿研究方向。使用者可通过metadata.csv快速定位患者元数据及对应的影像与报告文件路径，直接加载.npz格式的标准化影像数组。数据集支持端到端的图像到文本生成任务，亦可用于探索CT与PET双模态影像的融合表征学习。在具体应用中，建议遵循数据划分指引，利用独立测试集进行模型评估，并参考相关论文的基准方法开展实验。

背景与挑战

背景概述

在医学影像与人工智能交叉领域，多模态数据融合已成为推动精准医疗发展的关键驱动力。ViMed-PET-CT数据集由Huu Tien Nguyen等研究人员于2026年构建，旨在应对越南语医学影像报告生成的挑战。该数据集整合了2017年至2023年间的患者正电子发射断层扫描与计算机断层扫描影像，并辅以结构化元数据及自动生成的文本报告，为开发跨模态医学视觉语言模型提供了重要资源。其核心研究问题聚焦于如何通过深度学习技术实现从多模态医学影像到规范化文本报告的端到端生成，从而减轻临床医师的工作负担，提升医疗文档的标准化水平，对东南亚地区的智慧医疗体系建设具有显著影响力。

当前挑战

ViMed-PET-CT数据集所针对的医学影像报告生成任务，面临多维度挑战：在领域问题层面，需解决PET与CT影像的异质性融合、解剖结构与代谢信息的对齐，以及越南语医学术语的准确表达与上下文连贯性生成；同时，模型需在保证临床安全性的前提下处理影像中的噪声、伪影及病理特征的稀疏性问题。在构建过程中，挑战主要体现在跨年份数据采集的时序一致性维护、原始.npy格式向.npz格式的高效转换与压缩，以及多源医学元数据的标准化清洗与对齐，这些技术障碍均对数据集的可靠性与可用性构成了考验。

常用场景

经典使用场景

在医学影像与自然语言处理的交叉领域，ViMed-PET-CT数据集为研究者提供了宝贵的多模态资源。其经典使用场景聚焦于基于越南语PET/CT扫描图像的自动报告生成任务。通过整合患者的CT与PET三维影像序列、基本人口统计学信息以及对应的放射学报告文本，该数据集支持端到端的视觉-语言模型训练，旨在从医学图像中自动生成结构化的诊断描述，从而模拟放射科医师的阅片与报告撰写过程。

实际应用

在实际医疗场景中，ViMed-PET-CT数据集所支撑的技术具有显著的转化潜力。其核心应用在于开发临床辅助决策系统，能够作为放射科医师的“第二双眼”，快速处理海量的PET/CT影像，并生成初步报告草稿，从而大幅提升工作效率并减少因疲劳导致的疏漏。此外，此类技术可用于医学教育培训，为医学生提供标准化的报告范例与自动评估工具。在远程医疗与资源匮乏地区，自动报告生成系统能够提供初步的影像解读支持，有助于优化医疗资源配置并提升诊断服务的可及性。

衍生相关工作

围绕ViMed-PET-CT数据集，已衍生出一系列探索医学多模态基础模型的前沿工作。其原始研究论文《Toward a Vision-Language Foundation Model for Medical Data》本身便是一个重要的基准，提出了针对越南语PET/CT报告生成的评估框架。可以预见，后续研究将在此基础上，深入探索更高效的跨模态融合架构、少样本或零样本学习策略以适应不同病种，以及引入医学知识图谱来增强生成内容的专业性与逻辑性。这些工作共同推动了面向特定语言和模态的、专业化医学人工智能模型的发展路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集