openlifescienceai/medmcqa

Name: openlifescienceai/medmcqa
Creator: openlifescienceai
Published: 2024-01-04 14:32:02
License: 暂无描述

Hugging Face2024-01-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/openlifescienceai/medmcqa

下载链接

链接失效反馈

官方服务：

资源简介：

MedMCQA是一个大规模的多选题问答数据集，专门设计用于解决现实世界中的医学入学考试问题。数据集包含了超过194,000个高质量的AIIMS和NEET PG入学考试多选题，涵盖了2,400个医疗主题和21个医学学科。每个样本包含一个问题、正确答案和其他选项，这些问题需要更深层次的语言理解，因为它们测试了模型在广泛医学学科和主题上的10多种推理能力。数据集还提供了详细的解决方案解释。数据集的目标是为自然语言处理社区提供一个开源数据集，以促进未来在问答系统方面的研究。

MedMCQA is a large-scale multiple-choice question answering (QA) dataset specifically designed to address real-world medical entrance examination problems. The dataset contains over 194,000 high-quality multiple-choice questions from AIIMS and NEET PG entrance exams, covering 2,400 medical topics and 21 medical disciplines. Each sample includes a question, the correct answer, and distractor options. These questions require in-depth language understanding, as they test over 10 types of reasoning capabilities of models across a broad range of medical disciplines and topics. The dataset also provides detailed explanatory solutions. The goal of this dataset is to offer an open-source resource for the natural language processing (NLP) community to facilitate future research on question answering systems.

提供机构：

openlifescienceai

原始信息汇总

数据集概述

名称: MedMCQA

描述: MedMCQA是一个大规模的多选题问答（MCQA）数据集，旨在解决实际医学入学考试问题。该数据集包含超过194,000个高质量的AIIMS和NEET PG入学考试多选题，覆盖2,400个医疗保健主题和21个医学科目。

语言: 英语

许可: Apache-2.0

多语言性: 单语

大小: 100K<n<1M

源数据: 原始数据

任务类别:

问答
多选题

任务ID:

multiple-choice-qa
open-domain-qa

数据集信息:

特征:
- id: 字符串，问题标识符
- question: 字符串，问题文本
- opa, opb, opc, opd: 字符串，选项A, B, C, D
- cop: 类标签，正确选项（a, b, c, d）
- choice_type: 字符串，问题类型（单选/多选）
- exp: 字符串，专家答案解释
- subject_name: 字符串，医学科目名称
- topic_name: 字符串，医学主题名称
数据分割:
- train: 182,822个问题
- test: 6,150个问题
- validation: 4,183个问题

数据集结构

数据实例: 每个实例包含问题、正确答案、其他选项、答案解释、所属科目和主题。
数据字段:
- id: 问题标识符
- question: 问题文本
- opa, opb, opc, opd: 选项
- cop: 正确选项
- choice_type: 问题类型
- exp: 答案解释
- subject_name: 科目名称
- topic_name: 主题名称
数据分割: 训练集包含所有收集的模拟和在线测试系列，测试集包含所有AIIMS PG考试多选题，验证集包含NEET PG考试多选题。

数据集创建

来源数据: 数据从官方网站和书籍中收集，覆盖1991年至今的AIIMS和NEET PG考试题目。
语言创建者: 专家生成
注释: 数据集不包含额外注释。

搜集汇总

数据集介绍

构建方式

MedMCQA数据集的构建基于对现实世界医学入学考试问题的深入分析，整合了超过194k个高质量的人工智能模拟及在线测试系列的多选题。数据集通过收集AIIMS & NEET PG入学考试的多选题，并经过专家审核和编辑，以确保问题的准确性和多样性。构建过程中，数据集的来源包括历史考试题目和官方书籍，并通过去除相似问题来提高数据集的质量和模型的泛化能力。

特点

该数据集的特点在于其大规模、多学科和多主题的覆盖。MedMCQA包含的题目不仅数量庞大，而且涉及2.4k个医疗保健主题和21个医学学科，具有高度的主题多样性。每个样本包含一个问题、正确答案以及其他选项，这些问题需要深入的语言理解和推理能力，以测试模型在广泛的医学学科和主题上的表现。此外，数据集还提供了详细的答案解释。

使用方法

使用MedMCQA数据集时，用户可以将其分为训练集、测试集和验证集，以模拟真实医学考试的标准。训练集包含所有收集的模拟和在线测试系列，测试集由AIIMS PG考试的多选题组成，验证集则由NEET PG考试的多选题构成。用户可以根据需要选择适当的配置文件来加载数据，并通过HuggingFace的库来训练和评估模型。

背景与挑战

背景概述

MedMCQA数据集，全称为Medical Multiple-Choice Question Answering，是一个大规模的多选题问答数据集，旨在应对现实世界中医学入学考试的问题。该数据集由Ankit Pal、Logesh Kumar Umapathi和Malaikannan Sankarasubbu创建，收集了超过194k个高质量的AIIMS和NEET PG入学考试多选题，覆盖了2.4k个医疗保健主题和21个医学科目。MedMCQA数据集的构建旨在填补之前生物医学多选题问答数据集的空白，并提供了一个开源的数据集，以促进自然语言处理社区的研究。该数据集的平均token长度为12.77，具有高度的主题多样性，每个样本包含一个问题、正确答案以及其他选项，这要求模型具备深入的语言理解和超过10种的推理能力，跨越广泛的医学科目和主题。

当前挑战

MedMCQA数据集在构建过程中面临的挑战主要包括：1) 收集和整理大量高质量的医学入学考试问题，保证问题的准确性和多样性；2) 处理和平衡数据集中的主题和科目，确保数据集能够全面覆盖医学领域的知识点；3) 由于医学领域的专业性和复杂性，数据集的构建需要医学专家的参与和指导，以保证数据集的质量和可靠性；4) 在数据集的应用过程中，需要解决模型对医学专业知识的理解和推理能力，以及如何准确评估模型在医学问题解答上的性能。

常用场景

经典使用场景

MedMCQA数据集作为医学领域大规模的多选题问答（MCQA）数据集，其经典使用场景在于模拟真实世界医学入学考试中的问题。该数据集包含超过19.4万高质量的问题，覆盖了2400多个医疗保健主题和21个医学科目，平均标记长度为12.77，主题多样性高。每个样本都包含一个问题、正确答案和其他选项，这些问题需要更深入的语言理解，因为它测试了模型在广泛医学主题和话题上的10多个推理能力。数据集还提供了关于解决方案的详细解释。

衍生相关工作

MedMCQA数据集的创建和发布，推动了医学领域问答系统的进一步发展。在此基础上，许多研究者和机构开展了相关研究，例如：1. 利用MedMCQA数据集训练医学问答模型，以提高模型的准确性和泛化能力；2. 基于MedMCQA数据集开发医学教育工具，以帮助学生和医生更好地学习医学知识；3. 利用MedMCQA数据集研究医学领域问答系统的性能和局限性。

数据集最近研究