MedXpertQA

github2025-01-31 更新2025-02-10 收录

下载链接：

https://github.com/TsinghuaC3I/MedXpertQA

下载链接

链接失效反馈

官方服务：

资源简介：

MedXpertQA是一个用于评估专家级医学知识和高级推理的具有高度挑战性和全面性的基准数据集。它包括4,460个问题，涵盖17个专业和11个身体系统。数据集分为两个子集：MedXpertQA Text用于文本医学评估，MedXpertQA MM用于多模态医学评估。

MedXpertQA is a highly challenging and comprehensive benchmark dataset for evaluating expert-level medical knowledge and advanced reasoning. It includes 4,460 questions spanning 17 medical specialties and 11 body systems. The dataset is divided into two subsets: MedXpertQA Text for textual medical evaluation, and MedXpertQA MM for multimodal medical evaluation.

创建时间：

2025-01-27

原始信息汇总

MedXpertQA 数据集概述

数据集简介

MedXpertQA 是一个用于评估专家级医疗知识和高级推理能力的综合性和挑战性很高的基准数据集。

数据集特点

数据规模：包含 4,460 个问题，涵盖 17 个专业领域和 11 个身体系统。
数据类型：分为两个子集，MedXpertQA Text（文本医疗评估）和 MedXpertQA MM（多模态医疗评估）。
多模态特性：MedXpert MM 引入了包含多种图像和丰富临床信息（包括患者记录和检查结果）的专家级医疗考试问题。
挑战性：引入高难度医疗考试问题，并通过严格过滤和增强，有效解决现有基准（如 MedQA）难度不足的问题。
临床相关性：通过收集对应于美国医学专科委员会 17/25 个成员专科考试的问题，提高临床相关性和全面性。
数据泄露风险缓解：通过数据合成减少数据泄露风险，并经过多轮专家评审确保准确性和可靠性。
推理导向评估：开发推理导向子集，以评估超越数学和代码推理能力的模型。

排行榜

对 16 个领先的自有和开源大规模语言模型（LMMs 和 LLMs）进行了评估，重点关注最新进展中的医疗推理能力。

联系方式

Shang Qu: lindsay2864tt@gmail.com
Ning Ding: dn97@mail.tsinghua.edu.cn

引用

@article{zuo2025medxpertqa, title={MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding}, author={Zuo, Yuxin and Qu, Shang and Li, Yifei and Chen, Zhangren and Zhu, Xuekai and Hua, Ermo and Zhang, Kaiyan and Ding, Ning and Zhou, Bowen}, journal={arXiv preprint arXiv:2501.18362}, year={2025} }

搜集汇总

数据集介绍

构建方式

MedXpertQA数据集的构建采用了严谨的筛选与增强手段，确保了问题的高难度与挑战性。该数据集覆盖了17个专业领域和11个人体系统，分为MedXpertQA Text和MedXpertQA MM两个子集，分别针对文本和多媒体医疗评估。通过整合多样化的医学考试问题和丰富的临床信息，如患者记录和检查结果，构建了一个全面的医学知识推理和理解评估框架。

特点

MedXpertQA数据集具备多项显著特点，包括创新的下一代多模态医疗评估方式，高度挑战性的医学考试问题，临床相关性强的数据设计，数据泄露风险的有效缓解，以及推理导向的评估体系。它不仅提供了传统医疗多模态基准所缺乏的深度和复杂性，而且展现了在不同维度上的显著多样性。

使用方法

用户可以通过访问MedXpertQA的官方存储库来获取数据集，并根据具体的研究需求选择Text或MM子集。数据集的使用涉及对模型进行医学推理能力的评估，用户需要按照数据集提供的格式和标准来设计和执行评估流程。此外，用户还可以参考数据集的 leaderboard 来了解当前领先模型的性能表现。

背景与挑战

背景概述

MedXpertQA数据集，由清华大学知识工程实验室的研究团队于2025年发布，旨在通过包含4,460个跨17个专业和11个身体系统的医学问题，为评估专家级医学知识和高级推理能力提供一项极具挑战性的基准。该数据集涵盖了文本和多媒体两种形式，收集了与美国医学专科考试相对应的问题，以提升其在临床相关性和全面性方面的表现。MedXpertQA的发布，不仅为医学自然语言处理领域提供了新的研究方向，而且对推动医学人工智能的发展具有重要意义。

当前挑战

MedXpertQA数据集面临的挑战主要在于其高难度问题的构建，确保数据集在多样性和临床相关性方面的深度和广度，以及防止数据泄露的风险。在评价医学推理能力方面，数据集需要能够准确反映出医学逻辑推理的复杂性，这对于现有的语言模型来说是一个重大挑战。同时，如何设计一个公平合理的评估机制，以衡量不同模型在医学知识和推理任务上的表现，也是当前亟待解决的问题。

常用场景

经典使用场景

MedXpertQA数据集作为医学领域内专家级推理和理解能力的评估基准，其经典的使用场景主要在于为机器学习模型提供具有挑战性的医学问题，以评估模型在处理复杂医疗知识和高级推理任务方面的性能。该数据集通过包含文本和多媒体两种形式的问题，使得研究者能够开发并测试模型在理解医学文献、图像以及患者记录等方面的能力。

衍生相关工作

基于MedXpertQA数据集，已经衍生出一系列相关的工作，包括对现有模型的性能评估、新型医学推理模型的开发，以及针对特定医学领域如放射学、病理学等的专业化模型研究。这些工作推动了医学人工智能领域的进步，为未来医疗健康科技的发展奠定了基础。

数据集最近研究