Kvasir-VQA

Hugging Face2024-09-04 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/SimulaMet-HOST/Kvasir-VQA

下载链接

链接失效反馈

官方服务：

资源简介：

Kvasir-VQA数据集是从HyperKvasir和Kvasir-Instrument数据集扩展而来的，增加了问答标注。该数据集旨在促进胃肠（GI）诊断中的高级机器学习任务，包括图像描述、视觉问答（VQA）和基于文本的合成医学图像生成。数据集包含6,500个带标注的图像，具有多种类型的问题，并根据CC BY-NC 4.0许可进行授权。数据集包括来自各种GI道状况和GI程序中使用的医疗设备的图像，标注由医疗专业人员开发。

创建时间：

2024-08-29

原始信息汇总

Kvasir-VQA 数据集概述

数据集信息

特征

image: 图像数据
source: 字符串，数据来源
question: 字符串，问题
answer: 字符串，答案
img_id: 字符串，图像ID

分割

raw: 原始数据分割，包含58849个样本，大小为15176464880.875字节

大小

下载大小: 1547864596字节
数据集大小: 15176464880.875字节

配置

default: 默认配置，数据文件路径为data/*.parquet

许可

cc-by-nc-4.0: 非商业性使用许可

任务类别

visual-question-answering: 视觉问答

语言

en: 英语

数据集描述

概述

Kvasir-VQA 数据集是从 HyperKvasir 和 Kvasir-Instrument 数据集扩展而来的，增加了问题和答案的标注。该数据集旨在促进胃肠道（GI）诊断中的高级机器学习任务，包括图像描述、视觉问答（VQA）和基于文本的合成医学图像生成。

关键特性

总图像数: 6500张标注图像
标注: 包含每个图像的问题和答案对
问题类型: 是/否、单选、多选、颜色相关、位置相关、数量统计
应用: 图像描述、VQA、合成医学图像生成、目标检测等

图像类别

图像类别	样本数量	来源数据集
正常	2500	HyperKvasir
息肉	1000	HyperKvasir
食管炎	1000	HyperKvasir
溃疡性结肠炎	1000	HyperKvasir
器械	1000	Kvasir-Instrument
总计	6500

标注过程

标注由医学专业人员参与，包含六种类型的问题：

是/否问题
单选问题
多选问题
颜色相关问题
位置相关问题
数量统计问题

标注涵盖了胃肠道方面的各种发现、异常、解剖标志和医疗仪器。

使用条款

使用 Kvasir-VQA 数据集时，应包含以下信息以确保遵守数据集的使用条款，特别是在引用数据集的文档或论文中：

@article{Gautam2024Sep, author = {Gautam, Sushant and Stor{aa}s, Andrea and Midoglu, Cise and Hicks, Steven A. and Thambawita, Vajira and Halvorsen, P{aa}l and Riegler, Michael A.}, title = {{Kvasir-VQA: A Text-Image Pair GI Tract Dataset}}, journal = {arXiv}, year = {2024}, month = sep, eprint = {2409.01437}, doi = {10.48550/arXiv.2409.01437} }

@inproceedings{gautam2024kvasirvqa, title={Kvasir-VQA: A Text-Image Pair GI Tract Dataset}, author={Gautam, Sushant and Storås, Andrea and Midoglu, Cise and Hicks, Steven A. and Thambawita, Vajira and Halvorsen, Pål and Riegler, Michael A.}, booktitle={Proceedings of the First International Workshop on Vision-Language Models for Biomedical Applications (VLM4Bio 24)}, year={2024}, location={Melbourne, VIC, Australia}, pages={10 pages}, publisher={ACM}, doi={10.1145/3689096.3689458} }

联系方式

如有任何问题，请联系 michael@simula.no, vajira@simula.no, steven@simula.no 或 paalh@simula.no。

搜集汇总

数据集介绍

构建方式

Kvasir-VQA数据集是基于HyperKvasir和Kvasir-Instrument数据集扩展而来，通过添加问题-答案对注释构建而成。该数据集的构建过程得到了医学专业人士的参与，涵盖了胃肠道（GI）诊断中的多种图像类别，包括正常组织、息肉、食管炎、溃疡性结肠炎以及医疗仪器。注释内容涉及六种问题类型，如是非题、单选题、多选题、颜色相关、位置相关和数量相关，确保了数据的多样性和专业性。

特点

Kvasir-VQA数据集包含6500张标注图像，每张图像均配有详细的问题-答案对，问题类型丰富多样，涵盖了胃肠道诊断中的多个方面。数据集不仅适用于视觉问答（VQA）任务，还可用于图像描述、合成医学图像生成以及目标检测等高级机器学习任务。其图像来源广泛，涵盖了多种GI疾病和医疗仪器，为医学图像分析提供了高质量的基准数据。

使用方法

Kvasir-VQA数据集可通过HuggingFace Dataset Hub直接加载使用。用户可以使用提供的Jupyter Notebook示例快速探索数据集内容。数据集支持以图像文件夹和CSV元数据的形式下载，便于本地存储和处理。使用该数据集时，需遵守CC BY-NC 4.0许可协议，并在相关文档中引用指定的学术论文，以确保合规性。

背景与挑战

背景概述

Kvasir-VQA数据集是基于HyperKvasir和Kvasir-Instrument数据集扩展而来，专为胃肠道（GI）诊断中的高级机器学习任务设计，包括图像描述、视觉问答（VQA）以及基于文本的合成医学图像生成。该数据集由Simula研究所的研究团队于2024年发布，旨在通过提供丰富的图像与问答对，推动医学影像与自然语言处理的交叉领域研究。其核心研究问题在于如何通过视觉与文本的结合，提升胃肠道疾病的诊断效率与准确性。Kvasir-VQA的发布为医学影像分析、自动化诊断系统以及多模态学习模型的发展提供了重要的数据支持。

当前挑战

Kvasir-VQA数据集在解决胃肠道疾病诊断问题时面临多重挑战。首先，医学影像的复杂性与多样性使得视觉问答任务难度显著增加，模型需要准确理解图像中的病理特征并生成符合医学逻辑的答案。其次，数据集的构建过程中，如何确保问答对的准确性与医学专业性是一大挑战，这需要依赖医学专家的深度参与与反复验证。此外，数据集的规模与多样性虽然为模型训练提供了丰富资源，但也对计算资源与模型泛化能力提出了更高要求。如何在有限的计算资源下高效训练多模态模型，并确保其在真实临床环境中的鲁棒性，是当前研究中的关键挑战。

常用场景

经典使用场景

Kvasir-VQA数据集在胃肠道（GI）诊断领域具有广泛的应用，特别是在视觉问答（VQA）任务中。该数据集通过提供带有问答注释的医学图像，支持研究人员开发能够自动回答与胃肠道疾病相关的视觉问题的模型。这些模型可以辅助医生快速理解图像中的关键信息，从而提高诊断效率和准确性。

解决学术问题

Kvasir-VQA数据集解决了医学图像分析中的多个关键问题，特别是在缺乏高质量标注数据的领域。通过提供丰富的问答对，该数据集为研究人员提供了训练和评估视觉问答模型的基准。这不仅推动了医学图像理解技术的发展，还为胃肠道疾病的自动诊断提供了新的研究方向。

衍生相关工作

Kvasir-VQA数据集的发布催生了一系列相关研究，特别是在医学图像分析和视觉问答领域。例如，基于该数据集的研究工作已经开发出多种先进的深度学习模型，用于胃肠道疾病的自动诊断和图像生成。这些工作不仅扩展了数据集的应用范围，还为医学图像处理领域提供了新的技术解决方案。

以上内容由遇见数据集搜集并总结生成