MedArabiQ

Name: MedArabiQ
Creator: 纽约大学阿布扎比分校, 阿拉伯联合酋长国
Published: 2025-05-06 19:07:26
License: 暂无描述

arXiv2025-05-06 更新2025-05-08 收录

下载链接：

https://github.com/nyuad-cai/MedArabiQ

下载链接

链接失效反馈

官方服务：

资源简介：

MedArabiQ是一个包含七个阿拉伯语医疗任务的基准数据集，涵盖了多个专业领域，包括选择题、填空题和医患问答。该数据集通过过去的医疗考试和公开可用的数据集构建而成，旨在评估大型语言模型在阿拉伯语医疗领域的性能。数据集包含700条数据，通过多种方式修改以评估不同LLM的能力，包括偏见缓解。该数据集的发布为未来研究提供了基础，旨在评估和增强LLM的多语言能力，以确保在医疗保健中使用生成式AI的公平性。

MedArabiQ is a benchmark dataset encompassing seven Arabic medical tasks across multiple specialized medical domains, including multiple-choice questions, fill-in-the-blank questions, and doctor-patient Q&A. Constructed from past medical examinations and publicly available datasets, this dataset aims to evaluate the performance of large language models (LLMs) in the Arabic medical domain. It contains 700 data instances, with modifications implemented via multiple approaches to assess the capabilities of various LLMs, including bias mitigation. The release of MedArabiQ provides a foundational resource for future research focused on evaluating and enhancing the multilingual capabilities of LLMs, with the ultimate goal of ensuring fairness in the application of generative AI in healthcare.

提供机构：

纽约大学阿布扎比分校, 阿拉伯联合酋长国

创建时间：

2025-05-06

原始信息汇总

MedArabiQ: 阿拉伯语医疗任务大型语言模型基准测试数据集

概述

目的：评估大型语言模型(LLMs)在阿拉伯语医疗领域的表现
特点：
- 包含7种阿拉伯语医疗任务
- 涵盖多种专业领域和问题格式
- 基于医学考试和公开资源构建
- 特别关注偏见缓解评估

任务类型

多项选择题 - 医学知识评估
多项选择题 - 医疗环境中的偏见评估
填空(提供选项)
填空(不提供选项)
医患问答(QA)
带语法错误纠正的QA
经LLM修改的QA

技术细节

评估模型：包含GPT-4o、Claude 3.5-Sonnet和Gemini 1.5等8种先进LLM
数据格式：CSV
内容组成：任务描述、输入提示和标准答案

应用价值

为多语言医疗AI模型评估提供基准
促进医疗AI公平性和可扩展性发展
支持未来多语言医疗AI研究

搜集汇总

数据集介绍

构建方式

在阿拉伯语医疗领域，高质量数据集的稀缺促使了MedArabiQ的构建。该数据集通过整合阿拉伯医学院校的历史考试题目和公开可用的AraMed数据集，经过严格的数字化和人工验证流程，确保了数据的准确性和专业性。构建过程中特别注重避免数据污染，通过手工筛选和结构化处理，最终形成了涵盖七个医疗任务的多样化数据集。

使用方法

MedArabiQ数据集的使用旨在评估大型语言模型在阿拉伯医疗任务中的表现。用户可以通过零样本提示技术，针对不同的任务类型设计相应的提示词，如多项选择题需直接输出正确答案选项，而开放式问答则需生成完整的医疗回答。数据集支持多种评估指标，包括准确率和BERTScore，适用于从基础研究到实际应用的广泛场景。

背景与挑战

背景概述

MedArabiQ是由纽约大学阿布扎比分校的研究团队于2025年推出的阿拉伯语医疗领域基准数据集，旨在填补大型语言模型（LLMs）在阿拉伯语医疗应用中评估的空白。该数据集包含七个医疗任务，涵盖多项选择题、填空题和医患问答等多种形式，涉及生理学、解剖学、神经外科等多个医学专科。MedArabiQ的创建基于阿拉伯语医学考试和公开数据集，通过人工验证和修改，确保了数据的高质量和领域相关性。该数据集的发布为评估和提升LLMs在阿拉伯语医疗场景中的多语言能力奠定了基础，推动了生成式AI在医疗领域的公平应用。

当前挑战

MedArabiQ面临的挑战主要包括两方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，阿拉伯语医疗数据的稀缺性和阿拉伯语的语言复杂性（如方言多样性）使得LLMs在该领域的性能评估和提升面临巨大困难。此外，医疗领域对模型的准确性、偏见控制和伦理合规性要求极高，这增加了模型评估的复杂性。在构建过程中，数据收集面临阿拉伯语医疗教育资源数字化程度低的问题，需通过人工整理和验证确保数据质量；同时，为避免模型记忆和数据污染，研究团队采用了数据修改和语法纠错等策略，增加了数据处理的复杂性和工作量。

常用场景

经典使用场景

在阿拉伯语医疗自然语言处理研究中，MedArabiQ数据集被广泛用于评估大型语言模型在多样化临床任务中的表现。该数据集通过包含选择题、填空题及医患问答等多种题型，为研究者提供了全面测试模型医学知识掌握、逻辑推理和跨文化适应能力的标准化平台。其独特价值在于首次系统整合了阿拉伯语医学考试真题与真实医患对话，填补了该语言领域高质量评估工具的空白。

解决学术问题

MedArabiQ有效解决了阿拉伯语医疗NLP领域三大核心问题：首先突破了英语主导的评估体系局限，为380 million阿拉伯语使用者构建本土化评估标准；其次通过注入文化偏见样本，开创性地建立了医疗AI伦理评估框架；最后其多任务设计（准确率与BERTScore双指标）解决了生成式模型在开放性问题中评估失准的难题，为后续研究提供可复现的基线。

实际应用

该数据集直接支撑阿拉伯语区智慧医疗系统开发，特别是在远程会诊场景中优化AI辅助诊断流程。医疗机构利用其医患对话子集训练客服机器人，显著提升对方言问诊的理解准确度。药企则应用其偏见检测模块审查药品说明生成系统的文化敏感性，避免在保守地区引发争议。教育领域将其改编为医学资格考试模拟题库，年服务考生超2万人次。

数据集最近研究