flaviagiammarino/path-vqa
收藏Hugging Face2023-06-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/flaviagiammarino/path-vqa
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- visual-question-answering
language:
- en
tags:
- medical
pretty_name: PathVQA
paperswithcode_id: pathvqa
size_categories:
- 10K<n<100K
dataset_info:
features:
- name: image
dtype: image
- name: question
dtype: string
- name: answer
dtype: string
splits:
- name: train
num_bytes: 3171303616.326
num_examples: 19654
- name: test
num_bytes: 1113474813.05
num_examples: 6719
- name: validation
num_bytes: 1191658832.096
num_examples: 6259
download_size: 785414952
dataset_size: 5476437261.472
---
# Dataset Card for PathVQA
## Dataset Description
PathVQA is a dataset of question-answer pairs on pathology images. The dataset is intended to be used for training and testing
Medical Visual Question Answering (VQA) systems. The dataset includes both open-ended questions and binary "yes/no" questions.
The dataset is built from two publicly-available pathology textbooks: "Textbook of Pathology" and "Basic Pathology", and a
publicly-available digital library: "Pathology Education Informational Resource" (PEIR). The copyrights of images and captions
belong to the publishers and authors of these two books, and the owners of the PEIR digital library.<br>
**Repository:** [PathVQA Official GitHub Repository](https://github.com/UCSD-AI4H/PathVQA)<br>
**Paper:** [PathVQA: 30000+ Questions for Medical Visual Question Answering](https://arxiv.org/abs/2003.10286)<br>
**Leaderboard:** [Papers with Code Leaderboard](https://paperswithcode.com/sota/medical-visual-question-answering-on-pathvqa)
### Dataset Summary
The dataset was obtained from the updated Google Drive link shared by the authors on Feb 15, 2023,
see the [commit](https://github.com/UCSD-AI4H/PathVQA/commit/117e7f4ef88a0e65b0e7f37b98a73d6237a3ceab)
in the GitHub repository. This version of the dataset contains a total of 5,004 images and 32,795 question-answer pairs.
Out of the 5,004 images, 4,289 images are referenced by a question-answer pair, while 715 images are not used.
There are a few image-question-answer triplets which occur more than once in the same split (training, validation, test).
After dropping the duplicate image-question-answer triplets, the dataset contains 32,632 question-answer pairs on 4,289 images.
#### Supported Tasks and Leaderboards
The PathVQA dataset has an active leaderboard on [Papers with Code](https://paperswithcode.com/sota/medical-visual-question-answering-on-pathvqa)
where models are ranked based on three metrics: "Yes/No Accuracy", "Free-form accuracy" and "Overall accuracy". "Yes/No Accuracy" is
the accuracy of a model's generated answers for the subset of binary "yes/no" questions. "Free-form accuracy" is the accuracy
of a model's generated answers for the subset of open-ended questions. "Overall accuracy" is the accuracy of a model's generated
answers across all questions.
#### Languages
The question-answer pairs are in English.
## Dataset Structure
### Data Instances
Each instance consists of an image-question-answer triplet.
```
{
'image': <PIL.JpegImagePlugin.JpegImageFile image mode=CMYK size=309x272>,
'question': 'where are liver stem cells (oval cells) located?',
'answer': 'in the canals of hering'
}
```
### Data Fields
- `'image'`: the image referenced by the question-answer pair.
- `'question'`: the question about the image.
- `'answer'`: the expected answer.
### Data Splits
The dataset is split into training, validation and test. The split is provided directly by the authors.
| | Training Set | Validation Set | Test Set |
|-------------------------|:------------:|:--------------:|:--------:|
| QAs |19,654 |6,259 |6,719 |
| Images |2,599 |832 |858 |
## Additional Information
### Licensing Information
The authors have released the dataset under the [MIT License](https://github.com/UCSD-AI4H/PathVQA/blob/master/LICENSE).
### Citation Information
```
@article{he2020pathvqa,
title={PathVQA: 30000+ Questions for Medical Visual Question Answering},
author={He, Xuehai and Zhang, Yichen and Mou, Luntian and Xing, Eric and Xie, Pengtao},
journal={arXiv preprint arXiv:2003.10286},
year={2020}
}
```
license: MIT许可证
task_categories:
- 视觉问答(Visual Question Answering, VQA)
language:
- 英语
tags:
- 医疗
pretty_name: PathVQA
paperswithcode_id: pathvqa
size_categories:
- 10K<n<100K
dataset_info:
features:
- name: image
dtype: 图像
- name: question
dtype: 字符串
- name: answer
dtype: 字符串
splits:
- name: train(训练集)
num_bytes: 3171303616.326
num_examples: 19654
- name: test(测试集)
num_bytes: 1113474813.05
num_examples: 6719
- name: validation(验证集)
num_bytes: 1191658832.096
num_examples: 6259
download_size: 785414952
dataset_size: 5476437261.472
# PathVQA 数据集卡片
## 数据集描述
PathVQA是一款面向病理学图像的问答对数据集,旨在用于训练与测试医疗视觉问答(Medical Visual Question Answering, VQA)系统,同时涵盖开放式问题与二元“是/否”类问题。
本数据集源自两部公开出版的病理学教科书《Textbook of Pathology》与《Basic Pathology》,以及公开数字图书馆Pathology Education Informational Resource (PEIR)。图像与说明文字的版权归属于两部教科书的出版方、作者以及PEIR数字图书馆的所有者。
**仓库地址:** [PathVQA官方GitHub仓库](https://github.com/UCSD-AI4H/PathVQA)
**论文链接:** [PathVQA: 30000+ Questions for Medical Visual Question Answering](https://arxiv.org/abs/2003.10286)
**排行榜链接:** [Papers with Code排行榜](https://paperswithcode.com/sota/medical-visual-question-answering-on-pathvqa)
### 数据集概览
本数据集取自作者于2023年2月15日分享的更新版Google Drive链接,相关细节可参见GitHub仓库中的[提交记录](https://github.com/UCSD-AI4H/PathVQA/commit/117e7f4ef88a0e65b0e7f37b98a73d6237a3ceab)。
此版本数据集共包含5004张图像与32795组问答对,其中4289张图像被问答对引用,剩余715张未被使用。部分图像-问题-答案三元组在同一划分(训练集、验证集、测试集)中重复出现,剔除重复三元组后,本数据集最终包含4289张图像对应的32632组问答对。
#### 支持任务与排行榜
PathVQA数据集在[Papers with Code平台](https://paperswithcode.com/sota/medical-visual-question-answering-on-pathvqa)设有活跃排行榜,模型将依据三项指标进行排名:“是/否准确率”、“自由形式准确率”与“整体准确率”。其中,“是/否准确率”指模型针对二元“是/否”类问题子集生成答案的准确率;“自由形式准确率”指模型针对开放式问题子集生成答案的准确率;“整体准确率”指模型针对所有问题生成答案的总体准确率。
#### 语言说明
本数据集的问答对均采用英语编写。
## 数据集结构
### 数据实例
每个数据实例均由一组图像-问题-答案三元组构成。
{
'image': <PIL.JpegImagePlugin.JpegImageFile 图像对象,模式为CMYK,尺寸为309×272>,
'question': '肝干细胞(卵圆形细胞)位于何处?',
'answer': '在赫林管内'
}
### 数据字段
- `'image'`:问答对所引用的病理学图像
- `'question'`:针对该图像提出的问题
- `'answer'`:预期标准答案
### 数据划分
本数据集按照作者提供的划分方式,分为训练集、验证集与测试集。
| | 训练集 | 验证集 | 测试集 |
|-------------------------|:------:|:------:|:------:|
| 问答对数量 | 19654 | 6259 | 6719 |
| 图像数量 | 2599 | 832 | 858 |
## 附加信息
### 许可信息
作者已将本数据集基于[MIT许可证](https://github.com/UCSD-AI4H/PathVQA/blob/master/LICENSE)进行开源发布。
### 引用信息
@article{he2020pathvqa,
title={PathVQA: 30000+ Questions for Medical Visual Question Answering},
author={He, Xuehai and Zhang, Yichen and Mou, Luntian and Xing, Eric and Xie, Pengtao},
journal={arXiv preprint arXiv:2003.10286},
year={2020}
}
提供机构:
flaviagiammarino
原始信息汇总
数据集概述
数据集名称: PathVQA 数据集类型: 视觉问答(Visual-Question-Answering) 领域: 医学 语言: 英语 许可: MIT
数据集内容
- 特征:
image: 图像数据question: 字符串类型的问题answer: 字符串类型的答案
- 数据分割:
分割 示例数量 字节数 训练 19,654 3,171,303,616.326 测试 6,719 1,113,474,813.05 验证 6,259 1,191,658,832.096 - 数据集大小:
- 下载大小: 785,414,952字节
- 数据集总大小: 5,476,437,261.472字节
数据集结构
- 数据实例: 每个实例包含一个图像-问题-答案三元组。
- 数据字段:
image: 图像文件question: 关于图像的问题answer: 预期答案
- 数据分割详情:
分割 问题-答案对数量 图像数量 训练 19,654 2,599 验证 6,259 832 测试 6,719 858
使用许可
数据集遵循MIT许可。
引用信息
@article{he2020pathvqa, title={PathVQA: 30000+ Questions for Medical Visual Question Answering}, author={He, Xuehai and Zhang, Yichen and Mou, Luntian and Xing, Eric and Xie, Pengtao}, journal={arXiv preprint arXiv:2003.10286}, year={2020} }
搜集汇总
数据集介绍

构建方式
PathVQA数据集构建于病理学图像之上,旨在为医学视觉问答(VQA)系统的训练与测试提供支持。该数据集源自两本公开的病理学教材《Textbook of Pathology》和《Basic Pathology》,以及一个公开的数字图书馆《Pathology Education Informational Resource》(PEIR)。通过提取这些资源中的图像与相关问答对,数据集共包含5,004张图像和32,795个问答对,其中4,289张图像与问答对相关联。
特点
PathVQA数据集的特点在于其专注于医学领域的视觉问答任务,涵盖了开放式问题和二元“是/否”问题。数据集的问答对均为英文,且包含丰富的病理学图像信息。此外,数据集通过去除重复的图像-问答对,确保了数据的唯一性,最终包含32,632个问答对。数据集还提供了训练集、验证集和测试集的明确划分,便于模型的开发与评估。
使用方法
PathVQA数据集的使用方法主要围绕医学视觉问答任务展开。用户可通过加载数据集中的图像-问答对,训练和测试VQA模型。数据集支持多种评估指标,包括“是/否准确率”、“开放式问题准确率”和“总体准确率”,用户可根据任务需求选择合适的指标进行模型性能评估。此外,数据集的开源许可证(MIT License)允许广泛的学术和商业用途。
背景与挑战
背景概述
PathVQA数据集由加州大学圣地亚哥分校(UCSD)的研究团队于2020年创建,旨在推动医学视觉问答(Medical Visual Question Answering, VQA)领域的研究。该数据集基于两本公开的病理学教材《Textbook of Pathology》和《Basic Pathology》,以及一个公开的数字图书馆Pathology Education Informational Resource(PEIR),构建了包含32,795个问答对的病理图像数据集。PathVQA的核心研究问题是通过结合图像与自然语言处理技术,提升医学图像的理解与问答能力,为医学诊断和教育提供支持。该数据集在医学人工智能领域具有重要影响力,推动了医学图像分析与自然语言处理的交叉研究。
当前挑战
PathVQA数据集在解决医学视觉问答问题时面临多重挑战。首先,医学图像的复杂性和多样性使得模型难以准确理解图像内容,尤其是在病理学领域,图像中可能包含微妙的病变特征。其次,问答对的构建依赖于医学专业知识,问题的多样性和答案的精确性要求模型具备高度的语义理解能力。此外,数据集的构建过程中,研究人员需处理图像版权问题,并确保数据的准确性和一致性。这些挑战不仅体现在模型的训练与评估中,也反映了医学人工智能领域在数据获取与处理上的复杂性。
常用场景
经典使用场景
PathVQA数据集在医学视觉问答(Medical VQA)领域具有重要应用,特别是在病理学图像的自动问答系统中。该数据集通过提供病理学图像及其相关的问题-答案对,为研究人员提供了一个标准化的测试平台,用于开发和评估基于深度学习的医学图像理解模型。这些模型能够自动回答关于病理图像的复杂问题,从而辅助医生进行诊断。
衍生相关工作
基于PathVQA数据集,许多经典的研究工作得以展开。例如,研究人员开发了多种基于深度学习的视觉问答模型,如多模态融合网络和注意力机制模型,这些模型在PathVQA数据集上取得了显著的性能提升。此外,该数据集还催生了一系列关于医学图像理解和自然语言处理结合的创新研究,推动了医学人工智能领域的进一步发展。
数据集最近研究
最新研究方向
在医学视觉问答(Medical Visual Question Answering, VQA)领域,PathVQA数据集的最新研究方向聚焦于提升模型在病理图像上的问答准确性和泛化能力。随着深度学习技术的不断进步,研究者们正致力于开发更为复杂的多模态融合模型,以更好地结合图像特征和文本信息。此外,针对数据集中的开放性问题,研究者们正在探索生成式模型的应用,以期在自由形式问答中取得更高的准确率。PathVQA的活跃排行榜进一步推动了这一领域的技术竞争,激励着全球研究团队不断优化算法,提升模型在医学图像理解与问答任务中的表现。
以上内容由遇见数据集搜集并总结生成



