MedQA-Darija-MultiLingual

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/Williamsanderson/MedQA-Darija-MultiLingual

下载链接

链接失效反馈

官方服务：

资源简介：

MedQA Darija MultiLingual 是一个多语言医疗问答对话数据集，包含摩洛哥阿拉伯语（Darija）、法语和英语的对话内容及音频。数据集旨在支持医疗领域的自然语言处理任务，如问答系统、自动语音识别、文本到语音转换和命名实体识别。数据集结构：每条记录代表一次医疗对话，包含患者与医生之间的两轮问答。数据字段包括各轮次的文本对话（Darija、法语、英语）、对应的音频文件路径（MP3格式，24kHz）、以及医疗命名实体识别（NER）标签（如症状、疾病、药物等）。数据规模：训练集包含1,590个样本（约4.69MB），测试集包含404个样本（约1.12MB）。覆盖23个医疗专科，每个专科名称均提供英语、法语和阿拉伯语版本。语言处理：Darija为原始语言并经过增强，法语和英语内容通过机器翻译并经过人工验证。音频文件采用Microsoft Edge Neural TTS生成，每个对话包含6个音频文件（患者和医生各三种语言版本）。

创建时间：

2026-04-03

原始信息汇总

MedQA Darija MultiLingual 数据集概述

数据集基本信息

数据集名称：MedQA Darija MultiLingual
许可证：cc-by-sa-4.0
语言：阿拉伯语（ar）、法语（fr）、英语（en）
主要标签：医疗、摩洛哥阿拉伯语（Darija）、多语言、音频、命名实体识别、对话、医疗保健
任务类别：问答、自动语音识别、文本转语音、令牌分类
数据规模：1K<n<10K

数据集结构与内容

数据格式：每个数据行代表一次完整的医疗对话，包含患者与医生之间的两轮问答。
数据量：
- 训练集：1,590 个样本
- 测试集：404 个样本
总大小：5,805,752 字节
下载大小：2,275,336 字节

数据字段说明

标识字段：conversation_id（对话ID）、specialty_id（专科ID）、specialty_en（专科英文名）、specialty_fr（专科法文名）、specialty_ar（专科阿拉伯文名）
文本对话字段：包含两轮问答，每轮均有患者和医生的表述，分别提供 Darija、法语、英语三种语言的版本（例如 turn_1_patient_darija、turn_1_doctor_fr、turn_2_patient_en）。
音频字段：对应每轮问答中患者和医生在三种语言下的音频文件路径（例如 turn_1_patient_audio_darija、turn_2_doctor_audio_en）。
命名实体识别字段：ner_darija、ner_fr、ner_en，以JSON格式标注医疗实体。
来源字段：pair_1_source、pair_2_source。

涵盖医学专科

共涵盖23个医学专科，每个专科均提供英文、法文和阿拉伯文名称。例如：

英文：Allergy and Immunology
法文：Allergie et Immunologie
阿拉伯文：الحساسية والمناعة （完整列表见数据集详情中的Specialties表格）

语言与音频信息

Darija（摩洛哥阿拉伯语）：原始及增强数据。
法语：机器翻译并经过验证。
英语：机器翻译并经过验证。
音频：
- 每次对话包含6个音频文件（患者和医生各一轮，共三轮，每轮两种语言角色）。
- 使用Microsoft Edge Neural TTS生成。
- 格式：MP3，采样率24kHz。

命名实体识别标签

标注的实体类型包括：SYMPTOM（症状）、DISEASE（疾病）、MEDICATION（药物）、BODY_PART（身体部位）、PROCEDURE（医疗程序）、DOSAGE（剂量）、DURATION（持续时间）、DIAGNOSIS（诊断）。

搜集汇总

数据集介绍

构建方式

在医疗对话数据资源相对匮乏的背景下，MedQA-Darija-MultiLingual数据集通过精心设计的流程构建而成。其核心内容源自摩洛哥阿拉伯语（Darija）的原始医患对话，并进行了数据增强以丰富语料。随后，利用机器翻译技术将对话内容同步转化为法语和英语版本，并经过人工验证以确保翻译的准确性与专业性。每条数据记录代表一个包含两轮问答的完整医患对话，并覆盖了二十三个不同的医学专科领域，从而构建出一个结构严谨、内容专业的多语言医疗对话数据集。

使用方法

研究人员可利用该数据集开展多项自然语言处理任务。对于机器翻译研究，其平行的三语文本可用于训练或评估医疗领域的翻译模型。在自动语音识别和文本转语音领域，配套的音频文件为模型训练与评估提供了直接素材。其包含的命名实体标注信息，则非常适用于医疗命名实体识别模型的开发与测试。此外，整个对话结构也为构建医疗问答系统或对话代理提供了高质量的训练数据，支持端到端的模型训练与评估。

背景与挑战

背景概述

随着全球医疗人工智能技术的迅猛发展，多语言医疗对话数据集的构建成为提升医疗问答系统泛化能力的关键。MedQA-Darija-MultiLingual数据集由研究团队于近年创建，专注于摩洛哥阿拉伯语（Darija）、法语和英语三种语言的医疗对话资源整合。该数据集涵盖了过敏与免疫学、心脏病学、精神病学等23个医学专科，旨在解决低资源语言在医疗自然语言处理中的代表性不足问题。通过包含文本、音频及命名实体识别标注，该资源为跨语言医疗对话理解、自动语音识别及机器翻译等任务提供了重要支撑，显著促进了医疗人工智能在多元语言环境下的应用研究。

当前挑战

在医疗问答领域，低资源语言如摩洛哥阿拉伯语的语义表示与多语言对齐存在显著挑战，涉及方言变体处理、医学术语标准化及跨文化医疗表达差异。数据集构建过程中，Darija的口语化特性与缺乏标准书写形式增加了数据采集与标注难度，机器翻译后的人工验证需确保医学信息的准确性与一致性。同时，多模态数据集成要求音频与文本在时序和内容上精确对齐，而医学命名实体识别需应对专业术语的多语言映射与实体边界模糊问题，这些因素共同构成了数据集开发的核心挑战。

常用场景

经典使用场景

在医疗自然语言处理领域，MedQA-Darija-MultiLingual数据集为多语言医疗对话建模提供了关键资源。其经典使用场景集中于跨语言医疗问答系统的训练与评估，尤其针对摩洛哥阿拉伯语（Darija）这一资源稀缺语言。研究者利用该数据集中的医患对话轮次、音频及命名实体标注，开发能够理解并生成多语言医疗响应的模型，有效模拟真实世界医疗咨询场景，促进语言技术在医疗领域的适应性。

解决学术问题

该数据集显著解决了低资源语言在医疗人工智能应用中的代表性不足问题。通过提供Darija、法语和英语的平行对话及音频，它支持跨语言迁移学习、医疗命名实体识别和多模态语音-文本联合建模等研究。其意义在于打破了语言壁垒，使医疗问答系统能够服务于摩洛哥及更广泛的阿拉伯语人群，推动了健康公平性和自然语言处理技术在专业领域的可及性。

实际应用

在实际应用中，该数据集为开发多语言医疗助手和远程医疗平台提供了核心训练数据。基于其构建的系统可协助医疗工作者进行初步分诊、提供多语言患者教育材料，或作为翻译工具辅助跨语言医患沟通。在摩洛哥等多语社会，此类技术能提升医疗服务的覆盖范围与效率，尤其惠及主要使用Darija口语而非标准阿拉伯语书面语的群体。

数据集最近研究