MedQAData-v2

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://huggingface.co/datasets/Williamsanderson/MedQAData-v2

下载链接

链接失效反馈

官方服务：

资源简介：

MedQAData-v2 是一个完全多语言的医疗问答数据集，涵盖 31 个医学专科，包含 35,481 个临床问答对，每个问答对均提供英语、法语和摩洛哥达里贾语版本。该数据集是 BRAIN HEALTH 项目的一部分，旨在支持多语言临床自然语言处理的研究和教育用途。数据集包含 14 个字段，包括问题、答案、临床摘要、紧急程度、专业领域和实体识别等。所有行均已填充，无缺失数据。数据集适用于问答和文本生成任务，特别适合医疗保健和多语言 NLP 研究。数据以 parquet 格式存储，按专科分类，总规模在 10K 到 100K 之间。使用 CC BY-SA 4.0 许可证，要求署名并以相同方式共享。

MedQAData-v2 is a fully multilingual medical question answering dataset covering 31 medical specialties, containing 35,481 clinical question-answer pairs, each provided in English, French, and Moroccan Darija. This dataset is part of the BRAIN HEALTH project, aimed at supporting research and educational use in multilingual clinical natural language processing. The dataset includes 14 fields, such as question, answer, clinical summary, urgency level, specialty field, and entity recognition, among others. All rows are filled with no missing data. The dataset is suitable for question answering and text generation tasks, particularly for healthcare and multilingual NLP research. The data is stored in parquet format, categorized by specialty, with a total size between 10K and 100K. It uses the CC BY-SA 4.0 license, requiring attribution and share-alike.

创建时间：

2026-04-24

原始信息汇总

MedQAData-v2 数据集概述

基本信息

数据集地址: https://huggingface.co/datasets/Williamsanderson/MedQAData-v2
许可证: CC BY-SA 4.0
语言: 英语、法语、摩洛哥阿拉伯语（Darija）
任务类型: 问答、文本生成
数据规模: 10,000 - 100,000 条
领域标签: 医疗、临床、多语言

数据集规模

总样本数: 35,481 条临床问答对
覆盖专科: 31 个医学专科

数据结构（14个字段）

字段名	类型	说明
`question_en`	string	患者问题（英文原始）
`question_fr`	string	法文翻译
`question_darija`	string	摩洛哥阿拉伯语翻译（阿拉伯文）
`context_question_fr`	string	法文临床摘要（≤3行）
`context_question_en`	string	英文临床摘要（≤3行）
`context_question_darija`	string	摩洛哥阿拉伯语临床摘要（≤3行）
`answer_en`	string	医生回答（英文）
`answer_fr`	string	法文翻译
`answer_darija`	string	摩洛哥阿拉伯语翻译
`language`	string	固定值 "English, French, Moroccan Arabic"
`urgency`	string	紧急程度（low / medium / high / critical）
`speciality`	struct	专科名称（含 en / fr / darija 三种语言）
`article_title`	string	简短的题目标题
`entities`	struct	实体字典：age, medicament, sympt, medical_field, disease, Test

紧急程度分布

紧急程度	数量	占比
critical	345	1.0%
high	3,202	9.0%
medium	28,217	79.5%
low	3,717	10.5%

专科配置及样本分布

配置名称	样本数
`gastroenterology`	3,039
`mental_health`	1,569
`critical_care`	1,555
`community_medicine`	1,540
`hematology`	1,539
`internal_diseases`	1,539
`infectious_diseases`	1,536
`general_medicine`	1,534
`microbiology`	1,534
`oncology`	1,534
`endocrinology`	1,532
`audiology`	1,531
`dentistry`	1,525
`anesthesiology`	1,524
`toxicology`	1,524
`hiv_aids`	1,523
`bariatric_surgery`	1,516
`dietetics`	1,514
`dermatology`	1,513
`diabetes_mellitus`	1,504
`child_health`	1,489
`urology`	1,483
`oral_maxillofacial_surgery`	50
`pharmacology`	50
`preventive_medicine`	50
`clinical_genetics`	48
`radiation_oncology`	47
`orthodontics`	38
`periodontics`	38
`plastic_surgery`	38
`infertility`	25

v2 相比 v1 的改进

新增了 context_question_en 和 context_question_darija 两个字段
所有行均已完整填充法文、英文和 Darija 的上下文摘要（≤3行）
缺失的 ~5,000 条法文/Darija 问答翻译已通过 NLLB-200-600M 补全
实体识别（NER）已全部填充（通过 Claude / GPT-4o-mini / Llama 完成）
所有行均已标注紧急程度（low / medium / high / critical）
speciality 字段从纯文本改为结构体，支持三种语言的多语言过滤
language 字段改为完整描述三种语言
article_title 字段在所有行中均有值

数据质量评估（基于 v1 基线的 9,788 行）

指标	分数
完整性	0.992
安全性	0.969
信息密度	0.964
BERTScore F1	0.842
相关性	0.749
LOF（异常检测）	0.741

使用方式

python from datasets import load_dataset

加载单个专科

ds = load_dataset("Williamsanderson/MedQAData-v2", "audiology")

加载全部数据

ds = load_dataset("Williamsanderson/MedQAData-v2", "all")

列出所有配置

from datasets import get_dataset_config_names print(get_dataset_config_names("Williamsanderson/MedQAData-v2"))

搜集汇总

数据集介绍

构建方式

MedQAData-v2是一个全面多语言的医疗问答数据集，其构建过程融合了多种技术手段。核心问答对源自icliniq平台的临床咨询，并利用NLLB-200-distilled-600M模型对约5000条缺失的法语和摩洛哥阿拉伯语问答进行了本地GPU翻译修复。随后，借助Claude Haiku 4.5与GPT-4o-mini等大语言模型，为数据补充了多语种临床摘要、命名实体识别标签及紧急程度标注。专科名称通过预定义的翻译映射表统一为三语结构，确保了跨语言过滤的准确性。整个流程结合了启发式规则与模型生成，最终形成了包含35481条高质量问答的数据集合。

使用方法

使用MedQAData-v2数据集极为便捷，主要依托HuggingFace的datasets库。用户可通过load_dataset函数加载指定专科子集（如“audiology”）或合并全量数据（配置名“all”）。借助get_dataset_config_names工具可快速浏览所有31个专科配置。数据以Parquet格式存储，支持高效读取。该数据集适用于多语言问答模型训练、临床文本生成、以及医疗领域跨语言信息检索等任务。值得注意的是，数据集仅供研究与教育用途，严禁用于实际临床决策，使用时需严格遵守CC BY-SA 4.0许可协议。

背景与挑战

背景概述

MedQAData-v2是由BRAIN HEALTH项目团队于近期发布的多语种医学问答数据集，旨在弥合临床自然语言处理领域中多语言资源的鸿沟。该数据集汇聚了35,481对临床问答，横跨麻醉学、儿科学、肿瘤学等31个医学专科，每项问答均提供英语、法语及摩洛哥阿拉伯语（Darija）版本。其核心研究问题在于构建一个覆盖广泛专科、语言完备且标注精细的临床问答资源，以推动低资源语言环境下的医学信息检索、问答系统及多语言临床NLP研究。相较于v1版本，v2在完整性上实现了质的飞跃——所有字段均被填充，新增了临床上下文摘要、命名实体识别标签及紧急程度标注，显著提升了数据集在模型训练与评估中的实用价值。作为开放获取资源（CC BY-SA 4.0），MedQAData-v2已成为多语言医学NLP领域的重要基准，尤其为阿拉伯语方言的临床文本处理提供了稀缺的高质量语料。

当前挑战

该数据集所解决的核心领域挑战是多语言临床问答系统中高质量标注数据的匮乏，尤其是在英语之外的语言（如摩洛哥阿拉伯语）中，医学问答对极度稀缺，限制了模型在非英语医疗场景中的泛化能力。此外，构建过程中面临多重技术难题：首先，原始数据来源于icliniq平台，约5,000对问答的法语及摩洛哥阿拉伯语翻译存在缺失，需借助NLLB-200-600M模型进行机器翻译填充；其次，临床实体标注（如药物、症状、疾病）最初在97%的行中缺失，团队不得不混合使用Claude、GPT-4o-mini和Llama三种大语言模型进行命名实体识别，并辅以基于规则的启发式摘要，以实现全字段的标注一致性。跨模型协调与方言变体的标准化处理进一步增加了数据质量控制的复杂性，最终通过独立评估（BERTScore F1达0.842）确保了数据集的可靠性与安全性。

常用场景

经典使用场景

在临床自然语言处理研究领域，MedQAData-v2作为首个全面多语言的医学问答数据集，其经典使用场景主要集中在多语言临床知识问答系统的构建与评估。该数据集横跨麻醉学、皮肤病学、肿瘤学等31个专科，以英文、法文和摩洛哥阿拉伯语三种语言呈现了超过35,000个真实的医患问答对，尤为珍贵的是每条数据均配有简明临床摘要、实体标注及紧急程度标签。研究者可将其用于训练和测试能够理解并回答多语种医学问题的深度学习模型，特别是在低资源语言如摩洛哥阿拉伯语的临床文本理解任务中发挥不可替代的基准作用。

解决学术问题

该数据集精准回应了多语言临床问答领域的两个核心学术挑战：其一是非英语医学文本资源的极度匮乏，尤其是在阿拉伯语方言层面几乎空白；其二是临床问答数据中结构化标注信息的缺失。MedQAData-v2通过系统化的多语言翻译和全面的字段补全，为研究者提供了可直接用于监督学习的高质量训练语料。它不仅使跨语言医学信息检索和多语言临床决策支持系统的研究成为可能，更推动了医疗问答领域中文本语义理解、实体识别及紧急程度分级等多个子任务的发展，对推动多语种临床NLP的学术进步具有里程碑式的意义。

实际应用

在实际应用层面，MedQAData-v2可被部署于智能医疗咨询平台、多语言患者导诊系统以及基层医疗辅助诊断工具中。例如，在摩洛哥或法语非洲地区的数字健康应用中，系统可基于该数据集训练的模型，用患者日常使用的方言精准理解主诉并提供初步建议。同时，该数据集中标注的紧急程度信息（从低到危急）能够帮助构建智能分诊系统，自动识别需要优先处理的病情。此外，涵盖31个专科的精细化配置使得专科化智能问诊机器人的开发成为现实，大幅提升了多语言环境下医疗服务的可及性和效率。

数据集最近研究