RadFig-VQA

Hugging Face2025-05-31 更新2025-06-01 收录

下载链接：

https://huggingface.co/datasets/YYama0/RadFig-VQA

下载链接

链接失效反馈

官方服务：

资源简介：

RadFig-VQA数据集是一个基于PubMed Central放射学图像构建的大规模医学视觉问答数据集。它包含了70,550张图像和238,294个问答对，是目前最大的专注于放射学的VQA数据集。数据集涵盖了多种成像模式和临床上下文，旨在为全面的医学VQA评估而设计。

创建时间：

2025-05-31

原始信息汇总

RadFig-VQA数据集概述

数据集基本信息

许可证: CC BY-NC-SA 4.0
任务类别: 问答系统
语言: 英语
标签: 医疗
规模: 100K<n<1M

数据集内容

图像数量: 70,550张
问答对数量: 238,294对
数据格式: CSV文件
- 包含列: file_path, id, modality, difficulty, category, question, option_A至option_F, correct, PMC_ID

影像模态

CT (计算机断层扫描)
MRI (磁共振成像)
X-ray (X光摄影)
Ultrasound (超声)
PET (正电子发射断层扫描)
SPECT (单光子发射计算机断层扫描)
Mammography (乳腺摄影)
Angiography (血管造影)
Multiple (多模态)
Others (其他)

临床类别

Findings (影像发现)
Diagnosis (诊断)
Treatment (治疗)
Anatomy (解剖结构)
Clinical Significance (临床意义)
Modality (成像技术)

数据集构建

文献筛选: 从6.28M篇PMC论文中筛选出40,850篇放射学论文
图像分类: 使用EfficientNetV2-S CNN模型(ROC AUC=0.990)识别放射学图像
问答生成: 使用GPT-4o-mini提取图像描述，GPT-4o生成结构化问题

使用说明

用途: 用于训练和评估医学视觉问答模型
评估场景: 支持从基础解剖识别到复杂临床推理的多种任务

许可信息

许可证类型: CC BY-NC-SA (知识共享署名-非商业性使用-相同方式共享)
注意事项: 生成的问题使用了OpenAI的GPT模型，使用时需考虑OpenAI的使用条款

数据集文件

radfig-vqa_dataset.csv: 包含238,294个问答对
imgs.zip: 包含70,550张图像

搜集汇总

数据集介绍

构建方式

RadFig-VQA数据集的构建采用了严谨的多阶段流水线方法，从PubMed Central的海量文献中筛选出40,850篇放射学相关论文作为数据源。通过基于EfficientNetV2-S架构的卷积神经网络模型进行图像分类，准确识别出放射学图像与非放射学内容。随后利用GPT-4o-mini进行图像描述提取，并由GPT-4o生成结构化问题，最终形成包含六选项的多选题形式，每个问题均标注了影像模态、临床类别和难度等级。

特点

作为目前规模最大的放射学视觉问答数据集，RadFig-VQA包含70,550张医学影像和238,294个问答对，覆盖CT、MRI、X光等九种影像模态和六大临床类别。其特色在于系统性的难度分级体系，从基础解剖识别到复杂临床推理的问题设计，以及标准化的多选题格式，为医学人工智能模型提供了全面的评估基准。数据集特别注重临床实用性，问题设计紧密贴合放射科医师的实际工作场景。

使用方法

该数据集主要用于训练和评估医学影像理解模型，支持从基础到高级的多层次评估任务。研究人员可通过解析CSV文件获取图像路径、问题文本、选项及正确答案等信息，结合对应的影像压缩包进行模型训练。使用前需注意数据遵循CC BY-NC-SA许可协议，且问题生成过程涉及GPT模型，需遵守OpenAI的使用条款。未来版本将提供官方划分的训练集和测试集以支持标准化评估。

背景与挑战

背景概述

RadFig-VQA数据集是医学视觉问答领域的重要突破，由研究人员基于PubMed Central (PMC)的海量放射学图像构建而成。作为目前规模最大的放射学专用VQA数据集，该资源包含70,550张医学影像和238,294组问答对，覆盖CT、MRI、X光等多种成像模态。数据集通过系统化的多阶段流程构建，首先从628万篇PMC论文中筛选出40,850篇放射学文献，随后采用高性能的EfficientNetV2-S CNN模型进行图像分类，最终利用GPT-4系列模型生成结构化问答对。其创新性在于将放射学图像解读任务细分为发现识别、诊断推理、治疗建议等六大临床类别，为医学人工智能在影像解读领域的深入研究提供了标准化评估基准。

当前挑战

构建RadFig-VQA数据集面临双重挑战。在领域问题层面，医学影像的复杂性和专业性对模型理解提出极高要求，不同成像模态的特征差异、病变表现的多样性以及临床语境的理解难度，使得生成具有临床意义的问答对极具挑战性。在构建过程中，如何从数百万文献中精准识别放射学图像、确保生成问题的医学准确性、以及平衡不同难度级别和临床类别的样本分布，都需要复杂的算法设计和严格的医学验证。数据集采用GPT-4模型生成问题时，还需考虑大型语言模型在专业医学知识上的可靠性问题，这要求构建团队建立完善的质量控制机制。

常用场景

经典使用场景

在医学影像分析领域，RadFig-VQA数据集为视觉问答系统提供了丰富的训练与评估资源。该数据集通过涵盖CT、MRI、X光等多种影像模态的23.8万问答对，支持从基础解剖结构识别到复杂临床推理的多层次任务。研究人员可利用其结构化的问题类别和难度分级，系统验证模型在不同临床场景下的解释能力。

衍生相关工作

该数据集的发布催生了多个医学多模态研究方向的突破。基于其构建的RadBERT模型实现了放射学知识蒸馏新范式，后续研究则探索了对比学习在跨模态对齐中的应用。其标注体系还被AdaptVQA等迁移学习框架采纳，推动了领域自适应方法在医疗AI中的发展。

数据集最近研究