WorldMedQA-V

Name: WorldMedQA-V
Creator: 牛津大学, 哈佛大学, 麻省总医院, 波士顿儿童医院, 圣卢克医疗中心, 本古里安大学, 麻省理工学院, 阿尔卡拉大学, 国际卫生与福利大学, 马斯特里赫特大学, 贝斯以色列女执事医疗中心, 杜克大学
Published: 2024-10-17 00:31:24
License: 暂无描述

arXiv2024-10-17 更新2024-10-18 收录

下载链接：

https://huggingface.com/datasets/WorldMedQA/V

下载链接

链接失效反馈

官方服务：

资源简介：

WorldMedQA-V是由牛津大学、哈佛大学等机构创建的多语言、多模态医疗考试数据集，旨在评估视觉语言模型在医疗领域的应用。数据集包含568个多项选择题，每个问题配有一张医学图像，涵盖巴西、以色列、日本和西班牙四个国家的语言和英语翻译。数据集的创建过程经过临床验证，确保了数据的质量和相关性。该数据集主要用于解决医疗AI系统在多语言环境中的公平性和有效性问题，特别是在非英语国家的应用。

WorldMedQA-V is a multilingual, multimodal medical examination dataset created by institutions including the University of Oxford and Harvard University, aiming to evaluate the application of vision-language models in the medical field. The dataset contains 568 multiple-choice questions, each paired with a medical image, covering the official languages of Brazil, Israel, Japan and Spain as well as their corresponding English translations. The dataset's creation process has undergone clinical validation to ensure the quality and relevance of the data. This dataset is primarily used to address the fairness and effectiveness issues of medical AI systems in multilingual environments, especially their applications in non-English-speaking countries.

提供机构：

牛津大学, 哈佛大学, 麻省总医院, 波士顿儿童医院, 圣卢克医疗中心, 本古里安大学, 麻省理工学院, 阿尔卡拉大学, 国际卫生与福利大学, 马斯特里赫特大学, 贝斯以色列女执事医疗中心, 杜克大学

创建时间：

2024-10-17

原始信息汇总

WorldMedQA-V: 多语言、多模态医学考试数据集

概述

WorldMedQA-V 是一个多语言和多模态的基准数据集，旨在评估视觉-语言模型（VLM）在医疗环境中的表现。该数据集包含来自巴西、以色列、日本和西班牙的医学考试问题，涵盖原始语言和英语翻译。每个多项选择题都配有一张相应的医学图像，允许对VLM在多模态数据上的表现进行全面评估。

主要特点：

多语言： 支持本地语言（葡萄牙语、希伯来语、日语和西班牙语）以及英语翻译。
多模态： 每个问题都附有一张医学图像，允许对VLM在文本和视觉输入上的表现进行综合评估。
临床验证： 所有问题和答案均由相应国家的母语临床医生审查和验证。

数据集详情

问题数量： 568
覆盖国家： 巴西、以色列、日本、西班牙
语言： 葡萄牙语、希伯来语、日语、西班牙语和英语
数据类型： 带医学图像的多项选择题
评估： 模型在本地语言和英语中的表现，以及是否使用医学图像

该数据集旨在弥合现实世界医疗环境与AI评估之间的差距，促进更公平、有效和具有代表性的应用。

数据结构

数据集以TSV格式提供，结构如下：

ID： 每个问题的唯一标识符。
问题： 本地语言的医学多项选择题。
选项： 可能答案的列表（A-D）。
正确答案： 正确答案的标签。
图像路径： 相应医学图像的路径（如果适用）。
语言： 问题的语言（原始或英语翻译）。

巴西示例：

问题： Um paciente do sexo masculino, 55 anos de idade, tabagista 60 maços/ano... [完整医学问题见下文]
选项：
- A: Aspergilose pulmonar
- B: Carcinoma pulmonar
- C: Tuberculose cavitária
- D: Bronquiectasia com infecção
正确答案： B <img src="src/example.png" alt="example" width="800"/>

下载和使用

数据集可从Hugging Face数据集页面下载。处理和评估数据集的所有代码可在以下仓库中找到：

数据集代码： WorldMedQA GitHub仓库
评估代码： VLMEvalKit GitHub仓库

如何开始： Google Colab演示

引用

请使用我们的arXiv预印本引用此数据集：

bibtex @misc{WorldMedQA-V2024, title={WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluation}, author={João Matos and Shan Chen and Siena Placino and Yingya Li and Juan Carlos Climent Pardo and Daphna Idan and Takeshi Tohyama and David Restrepo and Luis F. Nakayama and Jose M. M. Pascual-Leone and Guergana Savova and Hugo Aerts and Leo A. Celi and A. Ian Wong and Danielle S. Bitterman and Jack Gallifant}, year={2024}, eprint={2410.12722}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.12722}, }

搜集汇总

数据集介绍

构建方式

WorldMedQA-V数据集的构建基于四个国家的医学考试数据，包括巴西、以色列、日本和西班牙。这些数据来源于各国的国家执照或专业考试，涵盖了多个医学领域。数据集包括568个多选题及其对应的568张医学图像，所有问题均由本地临床医生进行验证，并提供了原始语言和经临床验证的英语翻译。通过这种方式，WorldMedQA-V确保了数据的多语言性和多模态性，为评估视觉语言模型在医疗领域的应用提供了坚实的基础。

特点

WorldMedQA-V数据集的主要特点在于其多语言和多模态的特性。该数据集不仅包含了来自四个国家的医学考试问题，还配对了相应的医学图像，从而能够全面评估模型在处理文本和图像信息时的能力。此外，所有问题均经过本地临床医生的验证，确保了数据的准确性和临床相关性。数据集还提供了问题的英语翻译，便于跨语言的模型评估和比较。

使用方法

WorldMedQA-V数据集适用于评估和训练视觉语言模型在医疗领域的应用。研究者和开发者可以使用该数据集来测试模型在多语言环境下的表现，特别是当模型需要同时处理文本和图像信息时。数据集提供了本地语言和英语两种版本的问题，允许用户在不同语言设置下进行模型评估。此外，数据集还提供了基线性能报告，帮助用户了解当前最先进模型的表现，并为模型的进一步优化提供参考。

背景与挑战

背景概述

随着多模态/视觉语言模型（VLMs）在医疗领域的广泛应用，确保其安全性、有效性和公平性的需求日益增长。传统的多选题问答（QA）数据集虽然长期以来作为评估工具，但主要局限于文本形式，且仅在少数语言和国家中可用。为应对这些挑战，WorldMedQA-V数据集应运而生，它是一个多语言、多模态的基准数据集，旨在评估医疗领域中的VLMs。该数据集包含了来自巴西、以色列、日本和西班牙的568个带有医学图像的多选题QA，支持本地语言和经临床医生验证的英语翻译。通过提供本地语言和英语翻译的基线性能，WorldMedQA-V旨在更好地匹配AI系统在多样化的医疗环境中的应用，促进更公平、有效和具有代表性的应用。

当前挑战

WorldMedQA-V数据集在构建和应用过程中面临多项挑战。首先，现有医疗QA数据集的错误和语言多样性不足问题亟待解决。其次，大多数医疗QA基准缺乏多模态数据，限制了模型的全面评估。此外，训练数据污染问题，即旧数据集可能与LLM/VLM训练语料库重叠，也是一个重要问题。最后，语言多样性，特别是对于未充分代表的语言，如希伯来语，仍然是模型性能提升的关键挑战。WorldMedQA-V通过引入多模态医疗考试数据和临床验证，旨在解决这些挑战，但其样本量相对较小，地理覆盖有限，且仅每题配有一张图像，这些都限制了其在实际临床场景中的应用。

常用场景

经典使用场景

WorldMedQA-V数据集的经典使用场景在于评估多模态语言模型（VLMs）在医疗领域的性能。该数据集通过结合多选题和医学图像，模拟真实的医疗考试环境，从而为模型提供了一个严格的基准测试平台。研究者可以利用此数据集评估模型在不同语言和多模态输入下的表现，确保其在多样化的医疗环境中具备高度的安全性和有效性。

实际应用

WorldMedQA-V数据集在实际应用中主要用于开发和验证多模态医疗语言模型。这些模型可以应用于自动化的医疗咨询系统、疾病诊断辅助工具以及医学教育培训平台。通过模拟真实的医疗考试环境，模型能够在实际应用中提供更准确、更可靠的医疗决策支持，从而提高医疗服务的质量和效率。

衍生相关工作

WorldMedQA-V数据集的发布催生了一系列相关研究工作，特别是在多模态语言模型和医疗领域的交叉研究。例如，研究者们利用该数据集开发了新的模型架构，以提高跨语言和多模态数据的处理能力。此外，该数据集还促进了多模态医疗数据的标准化和评估方法的统一，为未来的研究提供了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集