V

Hugging Face2024-10-17 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/WorldMedQA/V

下载链接

链接失效反馈

官方服务：

资源简介：

WorldMedQA-V是一个多语言、多模态的医疗考试数据集，旨在评估视觉语言模型（VLMs）在医疗环境中的表现。数据集包含来自巴西、以色列、日本和西班牙的医疗考试问题，涵盖葡萄牙语、希伯来语、日语、西班牙语和英语。每个多选题都配有一张相应的医疗图像，允许对VLMs在文本和视觉输入上的表现进行全面评估。所有问题和答案都经过相应国家的母语临床医生审查和验证。数据集包含568个问题，提供TSV格式，结构包括ID、问题、选项、正确答案、图像路径和语言。

创建时间：

2024-10-04

原始信息汇总

WorldMedQA-V: 多语言、多模态医学考试数据集

概述

WorldMedQA-V 是一个多语言和多模态的基准数据集，旨在评估视觉语言模型（VLM）在医疗环境中的表现。该数据集包含来自巴西、以色列、日本和西班牙的医学考试问题，涵盖原始语言和英语翻译。每个多项选择题都配有一张相应的医学图像，使得能够对VLM在多模态数据上的表现进行全面评估。

关键特点：

多语言： 支持本地语言（葡萄牙语、希伯来语、日语和西班牙语）以及英语翻译。
多模态： 每个问题都附有医学图像，允许对VLM在文本和视觉输入上的表现进行综合评估。
临床验证： 所有问题和答案均由相应国家的母语临床医生审查和验证。

数据集详情

问题数量： 568
覆盖国家： 巴西、以色列、日本、西班牙
语言： 葡萄牙语、希伯来语、日语、西班牙语和英语
数据类型： 多项选择题，附有医学图像
评估： 模型在本地语言和英语中的表现，以及有无医学图像的情况

该数据集旨在弥合现实医疗环境与AI评估之间的差距，促进更公平、有效和具有代表性的应用。

数据结构

数据集以TSV格式提供，结构如下：

ID： 每个问题的唯一标识符。
问题： 本地语言的医学多项选择题。
选项： 可能的答案列表（A-D）。
正确答案： 正确答案的标签。
图像路径： 相应医学图像的路径（如果适用）。
语言： 问题的语言（原始或英语翻译）。

巴西示例：

问题： Um paciente do sexo masculino, 55 anos de idade, tabagista 60 maços/ano... [完整医学问题见下文]
选项：
- A: Aspergilose pulmonar
- B: Carcinoma pulmonar
- C: Tuberculose cavitária
- D: Bronquiectasia com infecção
正确答案： B

下载和使用

数据集可以从Hugging Face数据集页面下载。所有处理和评估数据集的代码均可在以下仓库中找到：

数据集代码： WorldMedQA GitHub仓库
评估代码： VLMEvalKit GitHub仓库

如何开始： Google Colab演示

引用

请使用以下arXiv预印本引用此数据集：

bibtex @misc{WorldMedQA-V2024, title={WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluation}, author={João Matos and Shan Chen and Siena Placino and Yingya Li and Juan Carlos Climent Pardo and Daphna Idan and Takeshi Tohyama and David Restrepo and Luis F. Nakayama and Jose M. M. Pascual-Leone and Guergana Savova and Hugo Aerts and Leo A. Celi and A. Ian Wong and Danielle S. Bitterman and Jack Gallifant}, year={2024}, eprint={2410.12722}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.12722}, }

搜集汇总

数据集介绍

构建方式

WorldMedQA-V数据集的构建基于多国医疗考试的真实场景，涵盖了巴西、以色列、日本和西班牙的医疗考试题目。每个题目均以当地语言呈现，并附有英文翻译，确保跨语言的可比性。数据集的构建过程中，所有题目和答案均经过各国母语临床医生的审核与验证，确保了内容的准确性和临床相关性。此外，每个选择题均配有相应的医学图像，形成了多模态的数据结构，为视觉语言模型的评估提供了丰富的素材。

使用方法

WorldMedQA-V数据集的使用方法灵活多样，适用于多种研究场景。用户可以通过Hugging Face平台下载数据集，其TSV格式便于数据处理与分析。数据集中的每个条目包含唯一标识符、问题文本、选项、正确答案、图像路径和语言信息，支持多语言和多模态的模型评估。此外，GitHub上提供了数据集处理和评估的代码库，用户可通过Google Colab快速上手，进行模型的训练与测试，推动医疗人工智能技术的发展。

背景与挑战

背景概述

WorldMedQA-V数据集于2024年由João Matos等研究人员共同创建，旨在评估多模态语言模型在医疗领域的应用。该数据集涵盖了巴西、以色列、日本和西班牙四个国家的医学考试题目，支持葡萄牙语、希伯来语、日语、西班牙语及英语五种语言。每个多选题均配有相应的医学图像，使得模型能够在文本和视觉输入上进行综合评估。该数据集的构建得到了各国临床医生的验证，确保了其临床准确性。WorldMedQA-V的发布为医疗AI领域提供了更为公平、有效和代表性的评估工具，推动了多模态语言模型在真实医疗场景中的应用。

当前挑战

WorldMedQA-V数据集在解决医疗领域多模态语言模型评估问题时面临多重挑战。首先，医疗数据的多语言性和文化差异使得数据集的构建过程复杂化，需要确保不同语言和地区的医学知识在翻译和转换过程中保持准确性和一致性。其次，医学图像的多样性和复杂性对模型的视觉理解能力提出了更高要求，如何有效结合文本和图像信息成为一大难题。此外，数据集的规模相对较小，仅有568个问题，可能限制了模型的泛化能力。在构建过程中，研究人员还需克服数据收集和标注的高成本问题，确保每个问题及其答案的临床准确性，这进一步增加了数据集构建的难度。

常用场景

经典使用场景

WorldMedQA-V数据集在医疗领域的经典使用场景主要体现在其对多语言、多模态视觉语言模型（VLMs）的评估上。该数据集通过结合医学图像和多选题，为研究人员提供了一个全面的平台，用于测试和优化模型在跨语言和跨文化环境中的表现。特别是在处理来自巴西、以色列、日本和西班牙的医学问题时，数据集的多语言支持使得模型能够在不同语言背景下进行有效评估。

解决学术问题

WorldMedQA-V数据集解决了医疗AI领域中的几个关键学术问题。首先，它填补了多语言医学数据集在视觉语言模型评估中的空白，使得研究人员能够在多语言环境下进行更全面的模型测试。其次，数据集的多模态特性使得模型能够同时处理文本和图像信息，从而提高了模型在复杂医学场景中的适用性。此外，数据集的临床验证确保了问题的准确性和代表性，为模型提供了可靠的评估基准。

实际应用

在实际应用中，WorldMedQA-V数据集为医疗AI系统的开发提供了重要支持。通过该数据集，开发者可以训练和优化多语言、多模态的医疗问答系统，使其能够更好地服务于不同语言和文化背景的患者。例如，在跨国医疗合作中，该系统可以帮助医生快速获取和理解来自不同国家的医学信息，从而提高诊断效率和准确性。此外，数据集还可以用于开发智能医疗助手，为患者提供多语言的医学咨询和指导。

数据集最近研究