flaviagiammarino/vqa-rad

Name: flaviagiammarino/vqa-rad
Creator: flaviagiammarino
Published: 2023-06-03 18:38:48
License: 暂无描述

Hugging Face2023-06-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/flaviagiammarino/vqa-rad

下载链接

链接失效反馈

官方服务：

资源简介：

VQA-RAD是一个关于放射学图像的问答对数据集，旨在用于训练和测试医学视觉问答系统。数据集包含开放式问题和二元“是/否”问题，来源于MedPix，一个免费的在线医学图像数据库，问答对由临床医生团队手动生成。数据集包含2,248个问答对和315张图像，分为训练集和测试集。数据集支持的任务包括在Papers with Code上的排行榜，模型根据“封闭式准确率”、“开放式准确率”和“总体准确率”进行排名。数据集的问答对为英文，发布在CC0 1.0通用许可证下。

提供机构：

flaviagiammarino

原始信息汇总

数据集概述

数据集名称

名称: VQA-RAD
别名: 无

数据集基本信息

许可证: CC0-1.0
任务类别: 视觉问答
语言: 英语
标签: 医学
美观名称: VQA-RAD
大小类别: 1K<n<10K

数据集内容

类型: 医学视觉问答数据集
来源: 从MedPix数据库构建
生成方式: 由临床医生团队手动生成的问题-答案对
包含内容: 2,248个问题-答案对，315张图像
特殊说明: 训练集中有3个重复的图像-问题-答案三元组，且训练集与测试集共享1个图像-问题-答案三元组

数据集结构

特征:
- image: 图像，数据类型为图像
- question: 问题，数据类型为字符串
- answer: 答案，数据类型为字符串
分割:
- train: 1793个样本，95883938.139字节
- test: 451个样本，23818877.0字节
下载大小: 34496718字节
数据集大小: 119702815.139字节

数据集使用

支持任务: 医学视觉问答
评估指标: 闭合式准确率、开放式准确率和总体准确率
语言: 英语

数据集分割详情

	训练集	测试集
QAs	1,793	451
图像	313	203

法律与伦理

许可证: CC0 1.0 Universal License

引用信息

@article{lau2018dataset, title={A dataset of clinically generated visual questions and answers about radiology images}, author={Lau, Jason J and Gayen, Soumya and Ben Abacha, Asma and Demner-Fushman, Dina}, journal={Scientific data}, volume={5}, number={1}, pages={1--10}, year={2018}, publisher={Nature Publishing Group} }

搜集汇总

数据集介绍

构建方式

VQA-RAD数据集构建于医学影像领域，旨在为医学视觉问答系统提供训练和测试资源。该数据集源自MedPix，一个免费开放的医学影像数据库。通过临床医生团队的手工标注，生成了包含开放性问题及二元“是/否”问题的问答对。数据集最终包含2,248个问答对和315张影像，其中314张影像被问答对引用，1张未被使用。

特点

VQA-RAD数据集的特点在于其专注于医学影像的视觉问答任务，涵盖了开放性和二元性问题，能够全面评估模型的问答能力。数据集包含1,793个训练样本和451个测试样本，分别对应313张和203张影像。其问答对均由临床医生生成，确保了问题的专业性和答案的准确性。此外，数据集在Papers with Code平台上设有活跃的排行榜，支持基于“封闭式准确率”、“开放式准确率”和“总体准确率”的模型评估。

使用方法

VQA-RAD数据集的使用方法主要包括加载影像、问题和答案三元组，并通过训练集和测试集进行模型训练与评估。用户可利用Hugging Face平台提供的接口轻松访问数据，并基于封闭式和开放式问题的分类进行模型性能的全面测试。此外，数据集支持在医学视觉问答领域的研究，用户可通过引用相关文献和参与Papers with Code排行榜，推动该领域的技术进步。

背景与挑战

背景概述

VQA-RAD数据集由Jason J. Lau等研究人员于2018年创建，旨在推动医学视觉问答（Medical Visual Question Answering, VQA）领域的研究。该数据集基于MedPix医学图像数据库，包含由临床医生手动生成的放射学图像相关的问题-答案对。数据集涵盖了开放式问题和二元“是/否”问题，共计2,248个问题-答案对和315张图像。VQA-RAD的发布为医学图像理解与自然语言处理的交叉研究提供了重要资源，推动了医学人工智能的发展。该数据集的研究成果发表于《Scientific Data》期刊，并在医学视觉问答领域产生了广泛影响。

当前挑战

VQA-RAD数据集在解决医学视觉问答问题时面临多重挑战。首先，医学图像的复杂性和多样性要求模型具备高精度的图像理解能力，以准确识别病变区域和正常结构。其次，临床医生生成的问题通常涉及专业术语和复杂的医学知识，这对自然语言处理模型的语义理解能力提出了更高要求。此外，数据集的规模相对较小，可能导致模型在训练过程中出现过拟合现象。在构建过程中，研究人员需确保问题-答案对的准确性和一致性，同时处理图像与文本之间的多模态对齐问题，这些均为数据集构建的核心挑战。

常用场景

经典使用场景

VQA-RAD数据集在医学视觉问答（Medical VQA）领域具有重要应用，主要用于训练和测试基于放射学图像的问答系统。该数据集包含开放性问题与二元“是/否”问题，能够全面评估模型在医学图像理解与自然语言处理方面的能力。通过结合放射学图像与临床生成的问答对，VQA-RAD为研究者提供了一个高度专业化的实验平台，推动了医学人工智能的发展。

实际应用

在实际应用中，VQA-RAD数据集被广泛用于开发智能医学诊断系统。这些系统能够通过分析放射学图像并回答相关问题，辅助医生快速获取关键信息，从而提高诊断效率与准确性。例如，在急诊科或放射科，医生可以通过输入图像与问题，快速获得模型生成的答案，辅助判断是否存在病变或异常。这种应用不仅减轻了医生的工作负担，还为患者提供了更及时的医疗服务。

衍生相关工作

VQA-RAD数据集衍生了许多经典研究工作，推动了医学视觉问答领域的发展。例如，基于该数据集的研究提出了多种深度学习模型，如多模态融合网络与注意力机制，显著提升了模型在开放性问题与二元问题上的表现。此外，该数据集还激发了更多医学图像与自然语言处理结合的研究，如医学图像描述生成与医学知识图谱构建，为医学人工智能的进一步发展奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集