SpringWang08/medical-vqa-vi

Name: SpringWang08/medical-vqa-vi
Creator: SpringWang08
Published: 2026-04-26 07:35:29
License: 暂无描述

Hugging Face2026-04-26 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/SpringWang08/medical-vqa-vi

下载链接

链接失效反馈

官方服务：

资源简介：

越南医学视觉问答数据集（ViMedVQA）是一个包含医学和放射学领域图像及相关问答对的数据集。数据集支持越南语和英语，包含图像、问题、答案等多种特征。数据集分为训练集（5369个样本）、验证集（671个样本）和测试集（672个样本），主要用于视觉问答任务。

The Vietnamese Medical VQA (ViMedVQA) dataset is a collection of medical and radiology-related images paired with corresponding questions and answers in both Vietnamese and English. The dataset includes features such as images, questions, answers, and more. It is divided into training (5,369 samples), validation (671 samples), and test (672 samples) sets, primarily designed for visual question answering tasks.

提供机构：

SpringWang08

搜集汇总

数据集介绍

构建方式

在医学影像分析与自然语言处理交叉领域，视觉问答任务旨在使模型能够根据医学图像回答临床相关问题。为填补越南语医学视觉问答数据资源的空白，研究者构建了medical-vqa-vi数据集（亦称ViMedVQA）。该数据集从公开的放射学数据源中精心筛选了约6,712个图像-问答样本对，图像涵盖X光、CT、MRI等多种模态。每个样本均包含原英文问答和由母语者翻译并审核的越南语版本（question_vi与answer_vi），并提供了详细的答案类型、内容类型、图像部位等结构化标签。数据集被划分为训练集（5,369例）、验证集（671例）与测试集（672例），以确保模型评估的客观性。

特点

medical-vqa-vi数据集的核心特色在于其双语标注与多维元数据体系。每个样本同时提供越南语和英语两种语言的问答对，并对答案进行了由简短到完整的双重表达（answer_vi与answer_full_vi），支持不同粒度的生成与理解任务。数据集包含了多达13类丰富的结构化特征，如答案类型（二分类、开放式）、内容类型、图像来源与模态度等，并额外收录了同义改写后的问答句子（paraphrase_questions与paraphrase_answers），为数据增强和鲁棒性研究提供了天然基础。所有图像均来自真实临床场景，确保了下游医学应用的相关性。

使用方法

该数据集专为越南语医学视觉问答研究设计，支持多模态模型的训练、验证与测试。使用者可通过HuggingFace Datasets库加载default配置，按需获取train、validation、test三个子集。图像字段可直接用于视觉编码器，question_vi与answer_vi字段则服务于语言模块，构建端到端的VQA模型。paraphrase字段可用于多样化提问或答案生成的微调，元数据标签便于进行细粒度性能分析，如按答案类型或病灶位置评估模型表现。此外，双语特征使得该数据集可同时支持单语（越南语）与跨语言（英-越）的迁移学习实验。

背景与挑战

背景概述

在医学影像分析领域，视觉问答（VQA）技术旨在通过自然语言交互辅助临床诊断，然而现有数据集多集中于英语等资源丰富的语言，极大限制了低资源语言环境下的医学AI应用。越南医学VQA数据集（ViMedVQA）于近年来由研究团队构建，专注于越南语语境下的放射学影像问答任务。该数据集包含5369个训练样本、671个验证样本及672个测试样本，覆盖多种影像模态和内容类型，并同时提供越南语和英语的问答对，旨在弥合语言鸿沟，推动多语言医学VQA研究。其问世不仅为越南语医学自然语言处理提供了稀缺的基准资源，更对全球医学影像辅助诊断的跨语言泛化具有重要启示意义。

当前挑战

该数据集所解决的领域挑战在于：医学VQA任务本身面临影像模态多样、专业术语复杂、答案类型不一等难题，而低资源语言（如越南语）的医学数据匮乏进一步加剧了模型在数据稀疏条件下的泛化困难。在构建过程中，团队需克服从多源英文医学VQA数据（如VQA-RAD、PathVQA）中筛选和翻译高质量问答对的挑战，确保医学语义在跨语言转换中的保真度，同时处理越南语独特的语法结构和医学术语对齐问题。此外，数据规模较小（仅约6.7k样本）要求模型具备更强的零样本或少样本学习能力，以应对真实临床场景中的罕见病例和复杂推理需求。

常用场景

经典使用场景

在医疗视觉问答（Medical VQA）这一前沿交叉领域中，medical-vqa-vi数据集以其独特的越南语标注和丰富的放射影像内容，为多语言医疗智能诊断模型的训练提供了宝贵资源。该数据集的核心应用场景聚焦于利用胸部X光片等医学影像，结合自然语言问题，驱动模型生成精准的临床回答。研究者常借助该数据集锤炼模型在解剖结构识别、病理描述与病变定位等多维度视觉语言理解能力，尤其适用于评估模型在低资源语言环境下处理医疗专业问答的鲁棒性与准确性。

实际应用

在实际医疗场景中，medical-vqa-vi数据集可助力开发面向越南语社区的智能影像辅助诊断工具，支持临床医生通过自然语言快速查询影像征象或获取第二诊疗意见。该数据集还可用于构建患者教育系统，为非专业用户提供易于理解的影像解读问答服务。此外，其双语（越南语与英语）标注特性使得模型可在国际医疗协作平台中实现多语言切换，促进远程会诊与医疗资源共享，尤其对于语言资源相对匮乏的地区具有显著的应用价值。

衍生相关工作

基于medical-vqa-vi数据集，研究者已衍生出一系列创新工作：面向低资源语言的跨模态迁移学习框架被提出，旨在利用英语医疗VQA模型的知识增强越南语模型的性能；针对医学影像中细粒度病理特征，注意力引导的视觉语言对齐方法得到广泛探索；此外，该数据集还催生了越南语医学文本生成与图像描述领域的基准测试，推动了诸如ViMedVQA-Bench等评估套件的开发，为统一医疗视觉问答的评价体系做出了积极贡献。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集