GBaker/MedQA-USMLE-4-options-hf

Name: GBaker/MedQA-USMLE-4-options-hf
Creator: GBaker
Published: 2023-01-30 22:57:33
License: 暂无描述

Hugging Face2023-01-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/GBaker/MedQA-USMLE-4-options-hf

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-sa-4.0 --- Original dataset introduced by Jin et al. in [What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams](https://paperswithcode.com/paper/what-disease-does-this-patient-have-a-large) <h4>Citation information:</h4> @article{jin2020disease, title={What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams}, author={Jin, Di and Pan, Eileen and Oufattole, Nassim and Weng, Wei-Hung and Fang, Hanyi and Szolovits, Peter}, journal={arXiv preprint arXiv:2009.13081}, year={2020} }

--- 许可证：知识共享署名-相同方式共享4.0（CC BY-SA 4.0） --- 本数据集最初由Jin等人在论文《这位患者所患何病？——来自医学考试的大规模开放域问答（Open Domain Question Answering）数据集》（可访问链接：https://paperswithcode.com/paper/what-disease-does-this-patient-have-a-large）中首次提出。 <h4>引用信息：</h4> @article{jin2020disease, title={这位患者所患何病？——来自医学考试的大规模开放域问答（Open Domain Question Answering）数据集}, author={Jin, Di and Pan, Eileen and Oufattole, Nassim and Weng, Wei-Hung and Fang, Hanyi and Szolovits, Peter}, journal={arXiv预印本 arXiv:2009.13081}, year={2020} }

提供机构：

GBaker

原始信息汇总

数据集概述

数据集来源

原始数据集由Jin等人提出，详细介绍于论文《What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams》。

数据集内容

该数据集是一个大规模的开放域问答数据集，专注于医学考试中的疾病诊断问题。

授权信息

数据集遵循CC-BY-SA-4.0许可证。

引用信息

引用格式：

@article{jin2020disease, title={What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams}, author={Jin, Di and Pan, Eileen and Oufattole, Nassim and Weng, Wei-Hung and Fang, Hanyi and Szolovits, Peter}, journal={arXiv preprint arXiv:2009.13081}, year={2020} }

搜集汇总

数据集介绍

构建方式

在医学知识图谱与自然语言处理交叉领域，GBaker/MedQA-USMLE-4-options-hf数据集源自Jin等人于2020年提出的开放域问答资源。该数据集以美国医师执照考试（USMLE）的试题为蓝本，通过系统化收集与整理，构建了一个包含四选项选择题的大规模语料库。其构建过程严谨遵循医学考试的标准框架，确保了题目在临床场景中的代表性与权威性，为后续的医学问答研究奠定了坚实基础。

特点

该数据集的核心特点在于其高度结构化的医学知识呈现。每道题目均围绕特定疾病或临床情境设计，选项经过精心筛选，模拟真实考试中的干扰项设置。数据覆盖广泛的医学学科，从基础病理学到复杂临床决策，体现了多层次的知识体系。这种设计不仅提升了模型的推理挑战性，也为评估人工智能在医疗领域的应用潜力提供了可靠基准。

使用方法

在实践应用中，该数据集主要服务于医学问答系统的开发与评估。研究者可将其用于训练端到端的问答模型，或作为测试集验证模型在开放域医学知识理解上的性能。使用前需遵循CC-BY-SA-4.0许可协议，确保学术使用的合规性。通过引用原始文献，用户能够追溯数据来源，维护学术研究的透明性与可重复性。

背景与挑战

背景概述

医学问答数据集GBaker/MedQA-USMLE-4-options-hf由Jin等人于2020年提出，旨在构建大规模开放域医学问答资源。该数据集源自美国医师执照考试（USMLE）的试题，核心研究问题聚焦于通过自然语言处理技术，模拟临床诊断中的疾病识别与决策过程。其创建推动了医学人工智能在知识推理与患者交互方面的发展，为后续研究提供了标准化评估基准，显著提升了模型在复杂医学语境下的理解能力。

当前挑战

该数据集致力于解决开放域医学问答中的挑战，包括医学知识的深度整合、临床语境的多义性解析以及诊断推理的逻辑连贯性。在构建过程中，研究人员面临试题的语义复杂性、标准答案的权威性验证以及数据标注的医学专业性要求等难题。这些挑战共同凸显了将大规模考试数据转化为可靠机器学习资源时，所需克服的技术与领域壁垒。

常用场景

经典使用场景

在医学人工智能领域，GBaker/MedQA-USMLE-4-options-hf数据集为开放域问答研究提供了关键支撑。该数据集源自美国医师执照考试（USMLE）的标准化试题，涵盖临床医学、病理学、药理学等多个学科，其经典使用场景在于评估和训练模型在复杂医学知识推理与诊断决策中的能力。研究者常利用该数据集构建端到端的问答系统，通过多选项选择题形式，检验模型从海量医学文本中提取关键信息、进行逻辑推断并给出准确答案的性能，从而推动智能辅助诊断技术的发展。

实际应用

在实际医疗环境中，该数据集支撑的应用场景广泛而深远。基于其训练的模型可集成到临床决策支持系统中，协助医师快速检索疾病信息、鉴别诊断方案，或用于医学教育平台的智能题库构建，帮助医学生进行自适应学习与模拟测试。此外，在远程医疗与健康咨询领域，这类技术能够提供初步的病症分析，缓解医疗资源分布不均的压力，提升基层医疗服务的效率与可及性。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典研究工作。例如，Jin等人提出的原始论文开创了大规模医学开放域问答的评估框架，后续研究则在此基础上探索了多模态融合、知识图谱增强以及少样本学习等方向。诸如Med-PaLM等大型语言模型也利用此类数据优化其在医疗领域的专业性能，推动了通用人工智能向垂直领域的深度渗透，形成了从数据构建到模型创新的完整研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集