MedMCQA|医学教育数据集|问答系统数据集

github2022-11-28 更新2024-05-31 收录

医学教育

问答系统

下载链接：

https://github.com/medmcqa/medmcqa

下载链接

链接失效反馈

资源简介：

MedMCQA是一个大规模的多选题问答数据集，专门设计用于解决真实世界医学入学考试问题。该数据集包含超过194,000个高质量的AIIMS和NEET PG入学考试多选题，覆盖2,400个医疗保健主题和21个医学科目，平均令牌长度为12.77，具有高度的主题多样性。每个样本包含一个问题、正确答案和其他选项，这些需要更深入的语言理解，因为它测试了模型在广泛的医学科目和主题上的10多种推理能力。本研究还提供了详细的解决方案解释。

MedMCQA is a large-scale multiple-choice question answering dataset specifically designed to address real-world medical entrance examination questions. The dataset comprises over 194,000 high-quality multiple-choice questions from AIIMS and NEET PG entrance exams, covering 2,400 healthcare topics and 21 medical subjects, with an average token length of 12.77, showcasing a high degree of topic diversity. Each sample includes a question, the correct answer, and other options, which require deeper linguistic comprehension as they test the model's reasoning abilities across a wide range of medical subjects and topics. This study also provides detailed solution explanations.

创建时间：

2022-03-27

原始信息汇总

数据集概述

数据集名称

MedMCQA

数据集描述

MedMCQA是一个大规模的多科目多选择题问答（MCQA）数据集，专门设计用于解决现实世界医学入学考试的问题。该数据集包含超过194,000个高质量的AIIMS和NEET PG入学考试的多选题，涵盖2,400个医疗保健主题和21个医学科目，平均令牌长度为12.77，具有高度的主题多样性。

数据集内容

每个样本包含一个问题、正确答案(s)和其他选项，这些选项需要更深入的语言理解，因为它们测试了模型在广泛的医学科目和主题上的10多种推理能力。此外，每个问题都附有详细的解答说明。

数据集结构

数据实例

每个数据实例包括：

id：问题标识符
question：问题文本
opa, opb, opc, opd：选项A、B、C、D
cop：正确选项
choice_type：单选或多选
exp：答案的专家解释
subject_name：医学科目名称
topic_name：医学主题名称

数据分割

数据集根据考试类型分为训练集、验证集和测试集，确保模型的可重用性和泛化能力。

分割	问题数量	词汇量	最大问题令牌数	最大答案令牌数
训练	182,822	94,231	220	38
验证	6,150	11,218	135	21
测试	4,183	10,800	88	25

数据集用途

MedMCQA旨在促进自然语言处理社区的研究，特别是提高问答系统的性能。该数据集适用于训练模型进行多选题问答和开放域问答。

数据集语言

所有问题和答案均为英语。

AI搜集汇总

数据集介绍

构建方式

MedMCQA数据集的构建基于现实世界医学入学考试题目，涵盖了超过194,000道高质量的多选题，这些题目来源于AIIMS和NEET PG入学考试，覆盖了2,400个医疗主题和21个医学学科。每个样本包含一个问题、正确答案及其他选项，旨在测试模型在广泛医学主题和话题上的10多种推理能力。数据集的构建过程中，特别注重了题目的多样性和深度，确保每个问题都附有详细的解答说明。

使用方法

使用MedMCQA数据集时，首先需要从指定的Google Drive链接下载数据，并按照提供的预处理步骤进行数据准备。数据集支持多种任务，包括多选题问答和开放域问答。用户可以通过克隆GitHub仓库并安装依赖项来运行实验代码。为了评估模型性能，用户需要在测试集上运行模型，并将预测结果通过指定的Google表单提交。提交的预测结果需要遵循特定的格式要求，确保答案索引从1开始，并且所有正确选项都在1到4的范围内。

背景与挑战

背景概述

MedMCQA数据集由Ankit Pal、Logesh Kumar Umapathi和Malaikannan Sankarasubbu等研究人员于2022年推出，旨在解决医学领域的多选问答问题。该数据集包含了超过19.4万道高质量的AIIMS和NEET PG入学考试题目，涵盖了21个医学学科和2400多个医疗主题。这些题目不仅测试了模型的语言理解能力，还考察了其在广泛医学主题中的推理能力。MedMCQA的推出为自然语言处理社区提供了一个重要的资源，推动了医学问答系统的研究与发展。

当前挑战

MedMCQA数据集在构建过程中面临了多方面的挑战。首先，医学领域的多选问答问题通常需要深度的领域知识和复杂的推理能力，这对模型的泛化能力提出了极高的要求。其次，数据集的构建需要确保题目的多样性和高质量，以避免模型在训练过程中出现过拟合现象。此外，由于医学知识的快速更新，数据集需要定期更新以保持其时效性和准确性。最后，数据集的评估过程需要严格保密测试集的真实答案，以确保评估结果的公正性和可靠性。

常用场景

经典使用场景

MedMCQA数据集在医学领域的自然语言处理研究中扮演着重要角色，尤其是在多选问答系统的开发与评估中。该数据集通过提供超过19万道高质量的医学考试题目，涵盖了21个医学学科和2400个医疗主题，为研究者提供了一个丰富的资源库。这些题目不仅测试模型的语言理解能力，还要求模型具备跨学科的推理能力，从而在模拟真实医学考试环境中评估和提升模型的性能。

解决学术问题

MedMCQA数据集解决了医学领域问答系统中模型泛化能力和推理能力的评估难题。通过提供详细的题目解释和多样化的医学主题，该数据集帮助研究者深入理解模型在处理复杂医学问题时的表现。此外，数据集的结构设计使得模型能够在不同医学学科之间进行有效的知识迁移，从而推动了医学问答系统的技术进步。

实际应用

在实际应用中，MedMCQA数据集被广泛用于开发智能医学教育工具和临床决策支持系统。通过训练模型处理复杂的医学考试题目，这些系统能够为医学生提供个性化的学习建议，或为临床医生提供实时的诊断支持。此外，数据集的多样性使得模型能够适应不同医学场景的需求，从而在医疗教育和临床实践中发挥重要作用。

数据集最近研究

最新研究方向

近年来，MedMCQA数据集在医学领域的自然语言处理研究中占据了重要地位，尤其是在医学问答系统的开发与优化方面。该数据集涵盖了21个医学学科和2400多个医疗主题，提供了超过19.4万道高质量的多项选择题，这些题目源自印度医学入学考试（AIIMS和NEET PG）。MedMCQA不仅挑战了模型的语言理解能力，还测试了其在广泛医学主题中的推理能力。当前的研究方向主要集中在如何利用深度学习模型，如BERT和GPT，来提升模型在复杂医学问题上的表现。此外，研究者们也在探索如何通过多任务学习和迁移学习技术，进一步增强模型在跨学科医学问题上的泛化能力。这些研究不仅推动了医学问答系统的发展，也为未来的医疗人工智能应用奠定了坚实的基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

全国 1∶200 000 数字地质图（公开版）空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

MIMIC-IV数据库

MIMIC全称是Medical Information Mart for Intensive Care, 是一个重症医学数据库。2003年，在NIH的资助下，来自贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)、麻省理工(MIT)、牛津大学和麻省总医院(MGH)的急诊科医生、重症科医生、计算机科学专家等共同建立的一个数据库。

github 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度，中国近海台风路径数据集，包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据，经过处理整合后形成文件，如使用csv文件需使用文本编辑器打开浏览，否则会出现乱码，如要使用excel查看数据，请使用xlsx的格式。

国家海洋科学数据中心收录

International Energy Agency (IEA) Statistics

该数据集包含了国际能源署（IEA）提供的全球能源统计数据，涵盖了能源生产、消费、贸易、价格、排放等多个方面。数据集提供了详细的能源相关指标，包括石油、天然气、煤炭、电力、可再生能源等，适用于能源政策分析、市场研究以及学术研究。