YeMedQA_Mutilangual
收藏Hugging Face2026-04-20 更新2026-04-21 收录
下载链接:
https://huggingface.co/datasets/ELJAOUHARY/YeMedQA_Mutilangual
下载链接
链接失效反馈官方服务:
资源简介:
YeMedQA 是一个多语言医疗问答数据集,专为医疗保健领域的自然语言处理应用设计。该数据集聚焦于患者与医生之间的多语言医疗对话,涵盖英语、法语和阿拉伯语(包括方言变体)。数据集旨在支持开发具有文化和语言适应性的医疗AI系统。数据来源包括公开可用的医疗问答数据集以及从可信医疗平台(如icliniq.com和altibbi.com)爬取的经过验证的医疗内容。这些平台因其高医疗可信度、真实的医患互动和多语言内容可用性而被选中。数据集包含多个特征字段,如问题、上下文问题、答案、语言、紧急性、专业领域、文章标题以及实体信息(如年龄、药物、症状等)。数据集分为训练集和测试集,分别包含7460和829个样本。适用于问答、文本分类和文本生成等任务,并特别标注为医疗领域使用。
创建时间:
2026-04-17
原始信息汇总
YeMedQA_Mutilangual 数据集概述
数据集基本信息
- 数据集名称:YeMedQA_Mutilangual
- 任务类别:问答、文本分类、文本生成
- 领域:医疗
- 语言:阿拉伯语、法语、英语
- 许可协议:MIT
- 数据规模:10K < n < 100K
数据集内容与结构
核心内容:YeMedQA 是一个专注于医疗保健领域自然语言处理应用的多语言问答数据集。其核心内容为患者与医生之间的医疗对话。
支持语言:
- 英语
- 法语
- 阿拉伯语(包含方言变体)
数据特征:
id:样本标识符question:问题context_question:上下文问题answer:答案language:语言urgency:紧急程度speciality:专科领域article_title:文章标题entities:实体信息,包含以下子结构:age:年龄列表medicament:药物列表sympt:症状列表medical_field:医疗领域列表disease:疾病列表Test:检查列表Result:结果列表
数据划分:
- 训练集:7,460 个样本
- 测试集:829 个样本
数据大小:
- 下载大小:4,170,389 字节
- 数据集大小:7,720,285 字节
数据来源与构建
数据集通过以下方式构建:
- Hugging Face 开放数据:整合公开可用的医疗问答数据集。
- 网络爬取(已验证的医疗来源):从可信的医疗平台收集和整理医疗内容。
- 来源网站:https://www.icliniq.com, https://www.altibbi.com
- 选择依据:高医疗可信度、真实的患者-医生互动、多语言内容可用性。
设计目标
该数据集旨在支持开发适应不同文化和语言的医疗人工智能系统。
搜集汇总
数据集介绍

构建方式
在医疗自然语言处理领域,构建高质量的多语言数据集对于推动跨文化医疗人工智能的发展至关重要。YeMedQA_Mutilangual数据集的构建过程融合了开放数据整合与专业医疗内容采集,其核心来源包括Hugging Face平台上的公开医疗问答数据集,以及从icliniq.com和altibbi.com等经过验证的医疗平台进行网络爬取所得的真实医患对话记录。这些来源不仅确保了数据的医学可信度,还涵盖了英语、法语及阿拉伯语(含方言变体)的多语言内容,为数据集提供了丰富的语言与文化多样性基础。
特点
该数据集在医疗问答任务中展现出鲜明的多维度特征,其核心在于覆盖英语、法语和阿拉伯语三种语言,特别是包含了阿拉伯语方言变体,这为研究语言与文化因素对医疗人工智能系统的影响提供了独特视角。数据集中的每条记录均包含问题、上下文问题、答案及语言标识,并额外标注了紧急程度、专业领域和文章标题等元数据,同时通过实体识别结构提取了年龄、药物、症状、医学领域、疾病、检验与结果等多类医疗实体,使得数据在支持问答任务的同时,也能服务于命名实体识别、文本分类与生成等多种下游应用。
使用方法
对于研究人员与开发者而言,YeMedQA_Mutilangual数据集的使用方法清晰而灵活。数据集已预先划分为训练集(7460条样本)与测试集(829条样本),用户可通过Hugging Face平台直接加载并应用于医疗领域的问答模型训练、评估与微调。其多语言特性支持跨语言医疗NLP模型的开发,而丰富的实体标注和元数据则便于进行细粒度的医疗信息提取与分析任务,为构建适应不同语言与文化背景的医疗人工智能系统提供了坚实的数据支撑。
背景与挑战
背景概述
随着人工智能在医疗健康领域的深入应用,多语言医疗问答系统的开发成为提升全球医疗服务可及性的关键。YeMedQA_Mutilangual数据集应运而生,专注于整合英语、法语及阿拉伯语(含方言变体)的医患对话数据,旨在支持构建具备文化及语言适应性的医疗人工智能系统。该数据集由研究团队通过整合公开医疗问答数据集及从icliniq.com、altibbi.com等可信医疗平台采集的实时交互内容构建而成,其核心研究问题在于解决多语言环境下医疗信息的精准理解与生成,为跨语言医疗自然语言处理研究提供了重要的数据基础。
当前挑战
在医疗问答领域,模型需应对专业术语的复杂性、临床语境的多义性以及跨语言医学知识表达的差异性等固有挑战。YeMedQA_Mutilangual的构建过程同样面临诸多困难:一是多语言数据源的协调与对齐,尤其在阿拉伯语方言变体的标准化处理上存在显著难度;二是从非结构化医患对话中抽取高质量问答对时,需确保医学信息的准确性与隐私保护的平衡;三是数据标注过程中,医疗实体如症状、药物、疾病的识别与分类要求高度的领域专业知识,增加了数据集构建的严谨性需求。
常用场景
经典使用场景
在医疗自然语言处理领域,YeMedQA_Mutilangual数据集为跨语言医疗问答系统的开发提供了关键支持。该数据集通过整合英语、法语和阿拉伯语的真实医患对话,构建了一个多语言医疗知识库,广泛应用于训练和评估医疗领域的问答模型。其经典使用场景包括基于上下文的医疗问题解答,模型需从对话中提取相关信息,生成准确、专业的医学答案,以模拟真实医疗咨询过程。
实际应用
在实际应用中,YeMedQA_Mutilangual数据集被用于开发智能医疗助手和在线健康咨询平台,例如基于多语言支持的虚拟医生系统。这些系统能够处理来自不同语言用户的医疗查询,提供初步诊断建议或健康信息,缓解医疗资源分布不均的问题。此外,数据集还可用于培训医疗专业人员的语言服务能力,或集成到电子健康记录系统中,以增强临床文档的自动分析和多语言检索功能。
衍生相关工作
基于YeMedQA_Mutilangual数据集,衍生了一系列经典研究工作,包括多语言医疗问答模型的优化,如结合预训练语言模型(例如BERT变体)进行跨语言迁移学习。这些工作探索了如何利用数据集的实体标注提升医学命名实体识别精度,或开发端到端的生成式问答系统,以处理复杂医疗场景。部分研究还聚焦于数据集的紧迫性和专科分类,推动了医疗优先级分类和专科导向的AI辅助工具的发展。
以上内容由遇见数据集搜集并总结生成



