thainamhoang/ViMed-PET-CT

Name: thainamhoang/ViMed-PET-CT
Creator: thainamhoang
Published: 2026-04-11 12:19:36
License: 暂无描述

Hugging Face2026-04-11 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/thainamhoang/ViMed-PET-CT

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-4.0 task_categories: - image-to-text - text-generation - image-text-to-text size_categories: - 1K<n<10K --- # ViMed-PET-CT Forked and optimized compression of [dacthai2807/ViMed-PET](https://huggingface.co/datasets/dacthai2807/ViMed-PET), converting `.npy` and chunked zip files into `.npz` files. Better annotation and guideline. Data includes **2017, 2018, 2019, and 2023**. Each patient contains: - basic metadata: sex, height, weight - CT scan - PET scan - generated report A separate `medical_test_set/` folder is included. ## Year Coverage - 2017: August to December - 2018: all year except May and June - 2019: May, June, October, November, December - 2023: whole year ## Scan Shape - CT: `(313, 512, 512)` - PET: `(313, 256, 256)` ## Metadata `metadata.csv` is used for dataset preview. It contains: - sex - height - weight - year - direct path to PET - direct path to CT - direct path to reports ## Citation ``` @misc{nguyen2026visionlanguagefoundationmodelmedical, title={Toward a Vision-Language Foundation Model for Medical Data: Multimodal Dataset and Benchmarks for Vietnamese PET/CT Report Generation}, author={Huu Tien Nguyen and Dac Thai Nguyen and The Minh Duc Nguyen and Trung Thanh Nguyen and Thao Nguyen Truong and Huy Hieu Pham and Johan Barthelemy and Minh Quan Tran and Thanh Tam Nguyen and Quoc Viet Hung Nguyen and Quynh Anh Chau and Hong Son Mai and Thanh Trung Nguyen and Phi Le Nguyen}, year={2026}, eprint={2509.24739}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2509.24739}, } ```

提供机构：

thainamhoang

搜集汇总

数据集介绍

构建方式

在医学影像与自然语言处理的交叉领域，ViMed-PET-CT数据集通过系统整合越南患者的多模态医疗数据构建而成。该数据集源自对现有资源的优化重构，将原始的.npy格式及分块压缩文件统一转换为.npz格式，提升了数据存储与访问效率。其内容覆盖2017年至2023年间的临床病例，每例均包含患者基本元数据、CT与PET三维扫描影像以及对应的生成报告，并专门设立了独立的医学测试集文件夹以支持评估工作。

特点

ViMed-PET-CT的显著特点在于其严格的多模态对齐与时间跨度设计。数据集不仅提供了高分辨率的CT与PET扫描影像，分别具有(313, 512, 512)和(313, 256, 256)的规范维度，还附带了性别、身高、体重等临床元数据。数据采集时间跨越多个年份，其中2017年涵盖8月至12月，2018年覆盖除5、6月外的全年，2019年包含5、6、10、11、12月，2023年则为完整年度，这种时间分布增强了数据在时序分析中的代表性。

使用方法

该数据集适用于医学影像报告生成、跨模态检索及视觉语言模型预训练等任务。研究人员可通过metadata.csv文件快速定位每位患者的影像路径与报告文本，实现结构化数据访问。在实际应用中，用户能够加载npz格式的影像数据与对应的文本报告，结合独立测试集进行模型训练与性能验证。数据集遵循CC-BY-4.0许可协议，为开发面向越南语的医疗多模态基础模型提供了重要资源支撑。

背景与挑战

背景概述

ViMed-PET-CT数据集由Huu Tien Nguyen等研究人员于2026年构建，旨在推动越南语医学影像报告生成的跨模态研究。该数据集整合了2017年至2023年间的患者数据，涵盖CT与PET扫描图像、基础元数据及生成的文本报告，为医学视觉-语言基础模型提供了关键资源。其核心研究问题聚焦于如何利用多模态数据自动生成精准的越南语放射学报告，以缓解临床医生的工作负担并提升诊断效率。该数据集的发布不仅填补了越南语医学多模态数据的空白，也为全球医学人工智能领域提供了重要的跨语言基准。

当前挑战

在医学影像报告生成领域，ViMed-PET-CT数据集致力于解决从多模态影像中自动生成结构化、临床准确的越南语文本报告的挑战，这要求模型深入理解影像特征与医学语义的复杂关联。数据构建过程中，研究人员面临跨年份数据整合的异构性挑战，需统一不同时期的扫描协议与格式；同时，确保患者隐私保护与数据脱敏处理亦构成关键难点。此外，生成高质量、符合临床规范的越南语报告需要领域专家深度参与标注，增加了数据收集与验证的复杂度。

常用场景

经典使用场景

在医学影像与自然语言处理的交叉领域，ViMed-PET-CT数据集为研究者提供了一个多模态学习的标准测试平台。该数据集整合了患者的CT与PET扫描图像及其对应的生成报告，使得模型能够学习从视觉模态到文本模态的映射关系。经典使用场景集中于自动化医学报告生成任务，模型通过分析三维医学影像序列，自动生成结构化的诊断描述，从而辅助放射科医生提升工作效率。

解决学术问题

该数据集有效应对了医学人工智能中多模态对齐与生成的挑战，为解决医学影像解读中的语义鸿沟问题提供了数据基础。其意义在于推动了视觉-语言基础模型在专业医疗领域的适配研究，特别是针对越南语医疗文本的生成任务。通过提供标准化的影像-报告对，该数据集促进了模型在跨模态理解、病灶描述准确性以及临床术语规范性等方面的性能评估，为可解释医疗AI的发展奠定了实证基础。

衍生相关工作

围绕ViMed-PET-CT数据集，已衍生出一系列聚焦于医疗多模态学习的经典研究工作。这些工作主要探索基于Transformer的编码器-解码器架构，如何有效地融合CT与PET双通道影像特征，并生成符合临床规范的越南语报告。相关研究进一步拓展至报告质量的自动评估、罕见病变的生成鲁棒性，以及考虑患者元数据（如性别、身高、体重）的个性化报告生成等方向，持续推动该领域向更精准、更可靠的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集