VinDr-CXR-VQA

Name: VinDr-CXR-VQA
Creator: VinUniversity
Published: 2025-11-01 19:17:44
License: 暂无描述

arXiv2025-11-01 更新2025-11-19 收录

下载链接：

https://hf-mirror.com/datasets/Dangindev/VinDR-CXR-VQA

下载链接

链接失效反馈

官方服务：

资源简介：

VinDr-CXR-VQA 是一个大规模的胸部 X 射线数据集，用于可解释的医学视觉问答（Med-VQA），具有空间定位功能。该数据集包含 4,394 张图像和 17,597 个问答对，每个问答对都由放射科医生验证的边界框和临床推理解释标注。问答类型包括六个诊断类型：Where, What, Is there, How many, Which, 和 Yes/No，涵盖了广泛的临床意图。为了提高可靠性，我们构建了 41.7% 正样本和 58.3% 负样本的平衡分布，以减少正常情况下的幻觉。通过 MedGemma-4B-it 进行基准测试，证明了其性能的提升（F1=0.624，比基线高 11.8%），同时实现了病变定位。VinDr-CXR-VQA 旨在推动可重复且基于临床的 Med-VQA 研究。数据集和评估工具已在 huggingface.co/datasets/Dangindev/VinDR-CXR-VQA 公开发布。

VinDr-CXR-VQA is a large-scale chest X-ray dataset for explainable medical visual question answering (Med-VQA) with spatial localization capabilities. This dataset contains 4,394 images and 17,597 question-answer pairs, each annotated with radiologist-validated bounding boxes and clinical reasoning explanations. Question types cover six categories: Where, What, Is there, How many, Which, and Yes/No, encompassing a wide range of clinical intents. To enhance reliability, we constructed a balanced distribution of 41.7% positive samples and 58.3% negative samples to reduce hallucinations in routine clinical contexts. Benchmarked using MedGemma-4B-it, the dataset demonstrates improved performance (F1=0.624, 11.8% higher than the baseline) while achieving lesion localization. VinDr-CXR-VQA aims to advance reproducible and clinically grounded Med-VQA research. The dataset and evaluation tools are publicly released at huggingface.co/datasets/Dangindev/VinDR-CXR-VQA.

提供机构：

VinUniversity

创建时间：

2025-11-01

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，构建具有空间定位能力的视觉问答数据集对推动可解释人工智能至关重要。VinDr-CXR-VQA基于权威胸部X光检测数据集VinDr-CXR的4,394张影像，通过结构化模板生成六类临床问题，并采用Gemini 2.5 Pro视觉语言API自动生成自然语言问答对与临床推理文本。所有病理标签与边界框坐标均直接继承自经放射科专家验证的原始标注，通过自动化脚本与临床专家双重校验机制确保数据可靠性。

特点

该数据集在医学视觉问答领域具有显著特色，其17,597组问答对涵盖六类诊断问题类型，呈现均衡分布特征。独特之处在于每个样本均包含放射科医师验证的空间定位框与临床推理说明，实现视觉定位与语义解释的有机统一。通过精心设计的正负样本平衡策略，正常与异常案例比例保持在41.7%与58.3%，有效降低模型在正常案例中的幻觉现象。验证集54.8%的影像包含多重病灶，平均每图8.3个定位框，高度还原真实临床场景的复杂性。

使用方法

该数据集支持端到端多任务学习框架，研究者可基于视觉语言模型同时训练视觉问答与病灶定位任务。具体实施时，模型需解析输入影像与自然语言问题，生成包含空间坐标标记的文本回答。评估体系采用双重标准：视觉问答性能通过准确率与F1分数衡量，空间定位质量则依据交并比阈值分级评价。数据集已按85:15比例划分训练验证集，并提供300张测试影像，支持模型在保持类别分布的前提下进行分层验证与泛化能力评估。

背景与挑战

背景概述

VinDr-CXR-VQA数据集于2025年由越南维纳大学与维纳-伊利诺伊智能健康中心联合发布，旨在推动可解释性医学视觉问答研究的发展。该数据集基于VinDr-CXR胸部X光影像数据库构建，包含4,394张影像与17,597组问答对，覆盖六类临床问题模板。所有标注均经过放射科医师验证，不仅提供病理定位边界框，还附有临床推理说明，为医学多模态模型提供了兼具空间定位与语义解释能力的训练基础。

当前挑战

在医学视觉问答领域，现有数据集普遍缺乏空间标注与临床解释的协同支持，导致模型难以实现可验证的诊断推理。构建VinDr-CXR-VQA过程中面临双重挑战：其一是需通过自动化生成与人工校验相结合的方式，确保17,597组问答对在保留原始放射科标注的同时，生成符合医学逻辑的自然语言内容；其二是需平衡正负样本分布以抑制模型幻觉，最终形成41.7%阳性与58.3%负样本的临床安全数据集结构。

常用场景

经典使用场景

在医学影像分析领域，VinDr-CXR-VQA数据集最经典的使用场景体现在胸部X光片的智能诊断辅助系统中。该数据集通过17,597个问答对与4,394张影像的有机结合，为视觉问答模型提供了丰富的训练素材。研究人员利用其六类结构化问题模板，能够系统性地评估模型在病灶定位、病理识别、存在性判断等核心临床任务上的表现。特别值得注意的是，数据集包含的放射科医师验证的空间标注信息，使得模型不仅能给出诊断结论，还能提供可视化的病灶定位依据，这为医学影像的自动化分析奠定了坚实基础。

衍生相关工作

该数据集的发布催生了一系列重要的衍生研究工作。基于VinDr-CXR-VQA的多任务学习框架已成为医学视觉问答领域的新范式，启发研究者探索视觉识别与自然语言推理的更深度融合。在模型架构方面，该数据集推动了如MedGemma等专业医学视觉语言模型的优化改进，证明了空间标注信息对提升模型性能的关键作用。同时，数据集构建过程中采用的自动化生成与专家验证相结合的质量控制方法，为后续医学数据集的创建提供了可借鉴的范例。这些衍生工作共同推动了医学AI从单纯分类向可解释诊断的范式转变。

数据集最近研究