MediQAl
收藏arXiv2025-07-28 更新2025-07-30 收录
下载链接:
https://huggingface.co/datasets/ANRMALADES/MediQAl
下载链接
链接失效反馈官方服务:
资源简介:
MediQAl是一个法国医疗问答数据集,旨在评估语言模型在真实世界临床场景中的医学知识回忆和推理能力。该数据集包含来自法国医学考试的32,603个问题,涉及41个医学学科。数据集包括三个任务:单选题、多选题和开放式简答题。每个问题都被标记为理解或推理,以便对模型的认知能力进行详细分析。MediQAl数据集通过使用14个大型语言模型进行广泛评估,提供了一个全面的基准,用于评估语言模型在法语医学问答任务上的性能。
提供机构:
法国南特大学医院、南特大学、法国国家科学研究中心、LS2N实验室
创建时间:
2025-07-28
搜集汇总
数据集介绍

构建方式
MediQAl数据集的构建基于法国国家医学考试(ECN)的公开试题资源,涵盖41个医学学科领域。数据收集过程包括从qcmlab网站自动提取多选题(MCQU和MCQM),以及通过HTML/PDF文件手动整理开放式短答题(OEQ)。为确保数据质量,研究团队采用多模型投票机制筛选具有挑战性的测试集问题,并基于TF-IDF相似度去重。所有问题均通过GPT-4o模型自动标注为理解型或推理型,经人工验证错误率仅为8.4%。数据集最终包含32,603道题目,按8:2比例划分训练集与验证集。
特点
该数据集的核心特点体现在三方面:任务多样性包含唯一答案多选题、多选多选题和开放式短答题三种形式;认知维度分类将每道题目标注为理解型或推理型,便于分析模型的不同认知能力;临床场景覆盖通过6,930道含临床情境的题目真实模拟医疗决策环境。数据规模上,其17,017道MCQU题目远超同类法语医学数据集FrenchMedMCQA的3,105道,且首次系统覆盖法语开放式医学问答需求。
使用方法
使用MediQAl需区分不同任务类型:MCQU任务采用准确率指标,MCQM采用精确匹配率(EMR)和汉明分数,OEQ则结合ROUGE-1、BLEU-4和基于roberta-large-mnli的BERTScore。评估时推荐采用零样本提示策略,对开放式问题额外部署LLM-as-Judge机制(使用Gemini-2.0Flash模型)。数据集支持模型在法语医学场景下的细粒度能力诊断,如BioMistral-7B经监督微调后性能提升15.64%,验证了其在领域适应中的价值。所有资源可通过HuggingFace获取,配套评估脚本已开源。
背景与挑战
背景概述
MediQAl是由法国南特大学医院(University Hospital of Nantes)的Adrien Bazoge等人于2025年推出的法语医学问答数据集,旨在评估语言模型在真实临床场景中的医学事实回忆与推理能力。该数据集包含来自41个医学主题的32,603个问题,涵盖三种任务类型:单选题、多选题和开放式短答题。问题进一步分为理解型和推理型两类,为分析模型的认知能力提供了细粒度框架。作为首个覆盖法语临床推理的大规模基准,MediQAl弥补了非英语医学评估资源的空白,其数据源自法国国家医学考试(ECN),由医院和学术机构专家团队编写,具有高度的临床真实性和专业权威性。该数据集通过评估14个大语言模型(包括增强推理模型),揭示了事实回忆与临床推理任务间存在的显著性能差距,为法语医学自然语言处理研究建立了重要基准。
当前挑战
MediQAl面临的挑战主要体现在两个方面:领域问题层面,现有医学问答基准多局限于英语环境,且过度依赖单选题格式(如MMLU、MedQA等),难以全面评估模型在复杂临床推理和多语言环境下的表现;构建技术层面,数据集整合了HTML/PDF等多源异构数据,需采用正则表达式与人工双重校验处理非结构化文档,并通过TF-IDF向量化结合人工审核消除重复问题。针对开放式短答题,需设计基于DrBERT法语医学分词器的答案长度控制策略(限制200词以内),同时利用GPT-4o自动完成41个医学主题标注和问题类型分类(理解型/推理型),该自动标注过程经858个样本人工验证达到91.6%准确率。此外,多选题任务中模型生成的候选选项与标准答案的格式对齐问题,以及开放式问答中临床可接受答案的多样性评估,均为数据集构建中的关键技术难点。
常用场景
经典使用场景
MediQAl数据集在医学自然语言处理领域具有广泛的应用场景,尤其在评估语言模型对法语医学知识的理解和推理能力方面表现突出。该数据集源自法国国家医学考试的真实题目,涵盖了41个医学学科,包含三种任务类型:单选题、多选题和开放式简答题。研究人员可利用该数据集对语言模型进行零样本或少样本评估,分析模型在医学知识回忆和临床推理任务上的表现差异。数据集特别适用于研究多语言医学语言模型的性能,为法语医学问答系统提供了可靠的基准测试平台。
实际应用
在实际医疗场景中,MediQAl数据集可支持多种应用开发。基于该数据集训练的模型可用于医学教育领域,辅助医学生备考国家医师资格考试。在临床决策支持系统中,该数据集有助于开发能够理解法语医学问题并提供准确回答的智能助手。此外,数据集中的开放式问答任务特别适合开发医疗咨询机器人,能够用法语回答患者关于症状、诊断和治疗方案的问题。数据集还可用作医院信息系统的测试基准,评估系统对临床文档的理解能力。
衍生相关工作
MediQAl数据集已催生多项重要研究工作。基于该数据集,研究者开发了BioMistral-7B-SFT等专门针对法语医学领域的微调模型。在评估方法上,衍生出LLM-as-Judge等创新性评估框架,用于开放式医学问答的自动评分。数据集还被用于研究推理增强型语言模型(如DeepSeek-R1)在医学领域的表现优势。此外,该数据集促进了多语言医学AI研究,启发了类似规模的西班牙语(MedExpQA)和波兰语医学数据集开发。
以上内容由遇见数据集搜集并总结生成



