MedQA-USMLE, MedXpertQA

github2025-03-18 更新2025-03-07 收录

下载链接：

https://github.com/Qsingle/open-medical-r1

下载链接

链接失效反馈

官方服务：

资源简介：

1. MedQA-USMLE：从训练数据集中随机选择了1090个样本，称为dataset1。2. MedQA-USMLE+MedXpertQA：从MedQA-USMLE的训练数据集中随机选择了600个样本，并从MedXpertQA中随机选择了490个样本，称为dataset2。3. MedXpertQA：从MedXpertQA数据集中随机选择了490个样本，称为dataset3。

1. MedQA-USMLE: 1090 samples were randomly selected from its training dataset, denoted as dataset1. 2. MedQA-USMLE+MedXpertQA: 600 samples were randomly selected from the training dataset of MedQA-USMLE, and 490 samples were randomly selected from MedXpertQA, denoted as dataset2. 3. MedXpertQA: 490 samples were randomly selected from the MedXpertQA dataset, denoted as dataset3.

创建时间：

2025-03-04

原始信息汇总

数据集概述

数据集名称

Medical R1-Zero Reproduce

数据集描述

该数据集用于医学问答系统的训练与评估，包含三个子数据集，分别是从MedQA-USMLE、MedXpertQA以及两者的混合数据集中随机选取的样本。

数据集组成

dataset1: 从MedQA-USMLE训练集中随机选择1090个样本。
dataset2: 从MedQA-USMLE训练集中随机选择600个样本，以及从MedXpertQA中随机选择490个样本。
dataset3: 从MedXpertQA中随机选择490个样本。

数据集用途

用于训练和评估基于HuatuoGPT-o1-7B模型的医学问答系统，探究不同数据集对模型性能的影响。

评估指标

在六个医学基准测试（MedMCQA、MedQA-USMLE、PubMedQA、MMLU-Pro Medical、GPQA Medical、MedXpertQA）上评估模型性能。

数据集获取

数据集准备脚本可以从MedXpertQA和MedQA-USMLE数据集获取数据。

shell python scripts/data_prepare.py --medxpertqa_root /path/to/medxpertqa --medqa_usmle_root /path/to/medqa_usmle --output_dir ./output/xpert_usmle

未来计划

开发具有显式难度评级的层次化QA数据集。
探究课程学习策略。
实现工具增强的推理框架。
设计多模态强化学习算法。
获取专用GPU资源进行大规模RL实验。

数据集详细信息

搜集汇总

数据集介绍

构建方式

MedQA-USMLE数据集的构建采取了对原始MedQA-USMLE和MedXpertQA训练数据集的随机抽样方式，分别构建了三个子数据集，即dataset1、dataset2和dataset3，以探索不同数据组成对模型训练效果的影响。

特点

该数据集的特点在于其包含了医学领域的问题和答案，且通过不同数据集的构建，展现了复杂案例与简单案例对模型训练的影响。特别是dataset2，在所有基准测试中表现出更稳定和优异的性能，显示出复杂和简单案例的平衡组合有利于性能稳定性和推理能力的发展。

使用方法

使用该数据集时，首先需准备训练环境，遵循Open-R1框架的安装步骤。然后，执行提供的脚本准备数据，最后通过指定的命令启动训练过程。需要注意的是，所使用的`num_processes`应等于GPU数量减一。

背景与挑战

背景概述

MedQA-USMLE数据集是在医学问答领域具有重要影响力的资源，由Jind11等研究人员创建。该数据集旨在为医学知识问答系统提供训练和评估的基础，特别是针对美国医学执照考试（USMLE）的相关问题。自发布以来，MedQA-USMLE数据集已被广泛应用于医学自然语言处理的研究，为推动该领域的技术进步提供了有力的数据支撑。

当前挑战

在构建MedQA-USMLE数据集的过程中，研究人员遇到了多个挑战。首先，如何平衡简单案例与复杂案例在数据集中的比例，对于模型的训练效果具有重要影响。其次，数据集的构建还需考虑如何有效提升模型的推理能力，避免由于知识不足导致的过早输出截断问题。此外，模型在训练过程中出现的自验证行为（即“Aha Moment”）的机理尚不完全清楚，这对模型性能的稳定性提出了挑战。

常用场景

经典使用场景

MedQA-USMLE数据集在医学问答系统领域中被广泛采用，其经典使用场景主要涉及利用大型语言模型对医学问题进行理解和回答。通过训练，模型能够对USMLE（美国医学执照考试）中的问题进行准确回答，辅助医学生和医生进行医学知识学习和考核。

实际应用

在实际应用中，基于MedQA-USMLE数据集训练的模型可被用于构建智能医学助手，为医疗专业人员提供决策支持，或者在医学教育中为学生提供即时问答服务，提高学习和复习效率。

衍生相关工作

该数据集衍生了多项相关工作，包括对医学问答系统的性能评估、基于MedQA-USMLE的模型在多语言环境下的适应性研究，以及结合其他医学数据集如MedXpertQA的增强学习策略，进一步推动了医学自然语言处理领域的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集