five

RadFig-VQA

收藏
Hugging Face2025-05-31 更新2025-06-01 收录
下载链接:
https://huggingface.co/datasets/YYama0/RadFig-VQA
下载链接
链接失效反馈
官方服务:
资源简介:
RadFig-VQA数据集是一个基于PubMed Central放射学图像构建的大规模医学视觉问答数据集。它包含了70,550张图像和238,294个问答对,是目前最大的专注于放射学的VQA数据集。数据集涵盖了多种成像模式和临床上下文,旨在为全面的医学VQA评估而设计。
创建时间:
2025-05-31
原始信息汇总

RadFig-VQA数据集概述

数据集基本信息

  • 许可证: CC BY-NC-SA 4.0
  • 任务类别: 问答系统
  • 语言: 英语
  • 标签: 医疗
  • 规模: 100K<n<1M

数据集内容

  • 图像数量: 70,550张
  • 问答对数量: 238,294对
  • 数据格式: CSV文件
    • 包含列: file_path, id, modality, difficulty, category, question, option_Aoption_F, correct, PMC_ID

影像模态

  • CT (计算机断层扫描)
  • MRI (磁共振成像)
  • X-ray (X光摄影)
  • Ultrasound (超声)
  • PET (正电子发射断层扫描)
  • SPECT (单光子发射计算机断层扫描)
  • Mammography (乳腺摄影)
  • Angiography (血管造影)
  • Multiple (多模态)
  • Others (其他)

临床类别

  • Findings (影像发现)
  • Diagnosis (诊断)
  • Treatment (治疗)
  • Anatomy (解剖结构)
  • Clinical Significance (临床意义)
  • Modality (成像技术)

数据集构建

  1. 文献筛选: 从6.28M篇PMC论文中筛选出40,850篇放射学论文
  2. 图像分类: 使用EfficientNetV2-S CNN模型(ROC AUC=0.990)识别放射学图像
  3. 问答生成: 使用GPT-4o-mini提取图像描述,GPT-4o生成结构化问题

使用说明

  • 用途: 用于训练和评估医学视觉问答模型
  • 评估场景: 支持从基础解剖识别到复杂临床推理的多种任务

许可信息

  • 许可证类型: CC BY-NC-SA (知识共享署名-非商业性使用-相同方式共享)
  • 注意事项: 生成的问题使用了OpenAI的GPT模型,使用时需考虑OpenAI的使用条款

数据集文件

  • radfig-vqa_dataset.csv: 包含238,294个问答对
  • imgs.zip: 包含70,550张图像
搜集汇总
数据集介绍
main_image_url
构建方式
RadFig-VQA数据集的构建采用了严谨的多阶段流水线方法,从PubMed Central的海量文献中筛选出40,850篇放射学相关论文作为数据源。通过基于EfficientNetV2-S架构的卷积神经网络模型进行图像分类,准确识别出放射学图像与非放射学内容。随后利用GPT-4o-mini进行图像描述提取,并由GPT-4o生成结构化问题,最终形成包含六选项的多选题形式,每个问题均标注了影像模态、临床类别和难度等级。
特点
作为目前规模最大的放射学视觉问答数据集,RadFig-VQA包含70,550张医学影像和238,294个问答对,覆盖CT、MRI、X光等九种影像模态和六大临床类别。其特色在于系统性的难度分级体系,从基础解剖识别到复杂临床推理的问题设计,以及标准化的多选题格式,为医学人工智能模型提供了全面的评估基准。数据集特别注重临床实用性,问题设计紧密贴合放射科医师的实际工作场景。
使用方法
该数据集主要用于训练和评估医学影像理解模型,支持从基础到高级的多层次评估任务。研究人员可通过解析CSV文件获取图像路径、问题文本、选项及正确答案等信息,结合对应的影像压缩包进行模型训练。使用前需注意数据遵循CC BY-NC-SA许可协议,且问题生成过程涉及GPT模型,需遵守OpenAI的使用条款。未来版本将提供官方划分的训练集和测试集以支持标准化评估。
背景与挑战
背景概述
RadFig-VQA数据集是医学视觉问答领域的重要突破,由研究人员基于PubMed Central (PMC)的海量放射学图像构建而成。作为目前规模最大的放射学专用VQA数据集,该资源包含70,550张医学影像和238,294组问答对,覆盖CT、MRI、X光等多种成像模态。数据集通过系统化的多阶段流程构建,首先从628万篇PMC论文中筛选出40,850篇放射学文献,随后采用高性能的EfficientNetV2-S CNN模型进行图像分类,最终利用GPT-4系列模型生成结构化问答对。其创新性在于将放射学图像解读任务细分为发现识别、诊断推理、治疗建议等六大临床类别,为医学人工智能在影像解读领域的深入研究提供了标准化评估基准。
当前挑战
构建RadFig-VQA数据集面临双重挑战。在领域问题层面,医学影像的复杂性和专业性对模型理解提出极高要求,不同成像模态的特征差异、病变表现的多样性以及临床语境的理解难度,使得生成具有临床意义的问答对极具挑战性。在构建过程中,如何从数百万文献中精准识别放射学图像、确保生成问题的医学准确性、以及平衡不同难度级别和临床类别的样本分布,都需要复杂的算法设计和严格的医学验证。数据集采用GPT-4模型生成问题时,还需考虑大型语言模型在专业医学知识上的可靠性问题,这要求构建团队建立完善的质量控制机制。
常用场景
经典使用场景
在医学影像分析领域,RadFig-VQA数据集为视觉问答系统提供了丰富的训练与评估资源。该数据集通过涵盖CT、MRI、X光等多种影像模态的23.8万问答对,支持从基础解剖结构识别到复杂临床推理的多层次任务。研究人员可利用其结构化的问题类别和难度分级,系统验证模型在不同临床场景下的解释能力。
衍生相关工作
该数据集的发布催生了多个医学多模态研究方向的突破。基于其构建的RadBERT模型实现了放射学知识蒸馏新范式,后续研究则探索了对比学习在跨模态对齐中的应用。其标注体系还被AdaptVQA等迁移学习框架采纳,推动了领域自适应方法在医疗AI中的发展。
数据集最近研究
最新研究方向
在医学影像与人工智能交叉领域,RadFig-VQA数据集的推出为放射学视觉问答研究开辟了新路径。该数据集以其23.8万组问答对的庞大规模和多模态影像覆盖优势,正推动着三个前沿方向的发展:基于多模态大模型的跨模态医学知识推理、放射学报告自动生成的细粒度评估,以及临床决策支持系统的可解释性研究。2023年以来,随着GPT-4等大语言模型在医疗领域的渗透,研究者开始探索如何将该数据集与生物医学预训练模型结合,构建端到端的放射学智能诊断框架。特别是在乳腺钼靶和CT影像的早期病变识别方面,该数据集提供的结构化问答对为模型的可信度验证提供了重要基准。其独特的难度分级体系更催生了新一代自适应评估方法的研究,这些进展正在重塑医学影像分析的技术范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作