ERVQA

Name: ERVQA
Creator: 印度理工学院，卡拉格普尔
Published: 2024-10-09 07:14:24
License: 暂无描述

arXiv2024-10-09 更新2024-10-11 收录

下载链接：

https://github.com/sourjyadip/ervqa-data/

下载链接

链接失效反馈

官方服务：

资源简介：

ERVQA数据集由印度理工学院卡拉格普尔的研究团队创建，专注于医院环境中的视觉问答任务。该数据集包含4355个<图像,问题,答案>三元组，涵盖了急诊室中的多种场景。数据集的图像来源于真实的医院环境，问题和答案由医学专家手动标注，确保了数据的高质量和专业性。创建过程中，研究团队采用了半自动和手动结合的标注方法，并通过GPT-4V进行数据增强。ERVQA数据集主要用于评估大型视觉语言模型在医疗环境中的表现，旨在解决医疗人员短缺问题，提升智能医疗助手的性能。

The ERVQA dataset was created by a research team from the Indian Institute of Technology Kharagpur, focusing on visual question answering (VQA) tasks in hospital environments. This dataset contains 4355 <image, question, answer> triplets covering various scenarios in emergency departments. The images in the dataset are sourced from real hospital settings, while the questions and answers were manually annotated by medical experts to ensure high data quality and professional rigor. During the dataset creation process, the research team adopted a hybrid semi-automatic and manual annotation approach, and conducted data augmentation using GPT-4V. The ERVQA dataset is primarily used to evaluate the performance of large vision-language models in medical environments, aiming to address the shortage of medical personnel and improve the performance of intelligent medical assistants.

提供机构：

印度理工学院，卡拉格普尔

创建时间：

2024-10-09

搜集汇总

数据集介绍

构建方式

ERVQA数据集通过精心策划的图像和专家注释的问题-答案对构建而成。首先，从Google Images中筛选出367张真实世界的医院环境图像，这些图像涵盖了各种患者相关的场景。随后，由具备医学背景的专家根据这些图像提出问题，并提供详细的答案。此外，利用GPT-4V进行半自动注释，生成的问题-答案对经过专家的二次验证和修正，确保数据的高质量和准确性。

特点

ERVQA数据集的显著特点在于其高度专业化和真实性。数据集包含了4355个专家注释的问题-答案对，涵盖了急诊室和病房中的多种场景。每个问题和答案都经过严格的医学专家审核，确保其相关性和准确性。此外，数据集还引入了详细的错误分类法，用于分析生成答案中的常见错误类型，从而为模型的改进提供指导。

使用方法

ERVQA数据集主要用于评估和提升大型视觉语言模型在医疗环境中的表现。研究者可以通过该数据集对模型进行基准测试，使用传统的VQA评估指标如BLEU和ROUGE，以及适应性指标如Entailment Score和CLIPScore Confidence。此外，数据集还提供了详细的错误分类和分析，帮助研究者识别和改进模型在医疗问答任务中的常见错误。

背景与挑战

背景概述

在全球医疗人员短缺的背景下，智能医疗助手的开发变得尤为重要。ERVQA数据集由印度理工学院卡拉格普尔分校、卡利尼医疗科学研究所和德奥哈医疗科学研究所的研究人员共同创建，旨在评估大型视觉语言模型（LVLMs）在医院环境中的准备情况。该数据集包含4355个专家注释的<图像、问题、答案>三元组，覆盖了急诊室和病房中的多种场景。通过详细错误分类和答案趋势分析，ERVQA数据集揭示了这一任务的复杂性，并为LVLMs在医疗领域的应用提供了基准。

当前挑战

ERVQA数据集面临的挑战包括：1) 缺乏公开可用的医疗环境图像数据集，尤其是在涉及患者和医院环境的图像方面；2) 构建过程中遇到的图像采集和发布困难；3) 生成答案时需要不仅相关，还需具备适当的清晰度和谨慎性，这增加了任务的复杂性。此外，错误分类和答案趋势分析揭示了模型在推理、感知和语言生成方面的不足，表明需要专门针对医疗领域的解决方案。

常用场景

经典使用场景

ERVQA数据集在医院环境中用于评估大型视觉语言模型（LVLMs）的准备情况，特别是在紧急情况下的视觉问答任务。通过提供包含图像、问题和答案的三元组，该数据集模拟了紧急房间中的各种场景，要求模型不仅提供相关答案，还需具备适当的清晰度和谨慎性。这种经典使用场景有助于识别和改进模型在复杂医疗环境中的表现。

解决学术问题

ERVQA数据集解决了现有大型视觉语言模型在医疗环境中应用的学术研究问题，特别是在缺乏公开可用数据集的情况下。通过提供详细的错误分类和趋势分析，该数据集揭示了模型在回答医疗相关问题时的细微差别，强调了开发领域特定解决方案的必要性。这为未来研究提供了宝贵的资源，推动了智能医疗助手的发展。

衍生相关工作

ERVQA数据集的引入催生了多项相关研究工作，特别是在医疗视觉问答（VQA）领域。例如，基于该数据集的错误分类和分析，研究人员开发了新的评估指标，如Entailment Score和CLIPScore Confidence，以更准确地衡量模型性能。此外，该数据集还促进了针对医疗领域特定需求的模型微调和优化，推动了智能医疗助手技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集