five

openlifescienceai/medmcqa

收藏
Hugging Face2024-01-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/openlifescienceai/medmcqa
下载链接
链接失效反馈
官方服务:
资源简介:
MedMCQA是一个大规模的多选题问答数据集,专门设计用于解决现实世界中的医学入学考试问题。数据集包含了超过194,000个高质量的AIIMS和NEET PG入学考试多选题,涵盖了2,400个医疗主题和21个医学学科。每个样本包含一个问题、正确答案和其他选项,这些问题需要更深层次的语言理解,因为它们测试了模型在广泛医学学科和主题上的10多种推理能力。数据集还提供了详细的解决方案解释。数据集的目标是为自然语言处理社区提供一个开源数据集,以促进未来在问答系统方面的研究。

MedMCQA is a large-scale multiple-choice question answering (QA) dataset specifically designed to address real-world medical entrance examination problems. The dataset contains over 194,000 high-quality multiple-choice questions from AIIMS and NEET PG entrance exams, covering 2,400 medical topics and 21 medical disciplines. Each sample includes a question, the correct answer, and distractor options. These questions require in-depth language understanding, as they test over 10 types of reasoning capabilities of models across a broad range of medical disciplines and topics. The dataset also provides detailed explanatory solutions. The goal of this dataset is to offer an open-source resource for the natural language processing (NLP) community to facilitate future research on question answering systems.
提供机构:
openlifescienceai
原始信息汇总

数据集概述

名称: MedMCQA

描述: MedMCQA是一个大规模的多选题问答(MCQA)数据集,旨在解决实际医学入学考试问题。该数据集包含超过194,000个高质量的AIIMS和NEET PG入学考试多选题,覆盖2,400个医疗保健主题和21个医学科目。

语言: 英语

许可: Apache-2.0

多语言性: 单语

大小: 100K<n<1M

源数据: 原始数据

任务类别:

  • 问答
  • 多选题

任务ID:

  • multiple-choice-qa
  • open-domain-qa

数据集信息:

  • 特征:

    • id: 字符串,问题标识符
    • question: 字符串,问题文本
    • opa, opb, opc, opd: 字符串,选项A, B, C, D
    • cop: 类标签,正确选项(a, b, c, d)
    • choice_type: 字符串,问题类型(单选/多选)
    • exp: 字符串,专家答案解释
    • subject_name: 字符串,医学科目名称
    • topic_name: 字符串,医学主题名称
  • 数据分割:

    • train: 182,822个问题
    • test: 6,150个问题
    • validation: 4,183个问题

数据集结构

  • 数据实例: 每个实例包含问题、正确答案、其他选项、答案解释、所属科目和主题。

  • 数据字段:

    • id: 问题标识符
    • question: 问题文本
    • opa, opb, opc, opd: 选项
    • cop: 正确选项
    • choice_type: 问题类型
    • exp: 答案解释
    • subject_name: 科目名称
    • topic_name: 主题名称
  • 数据分割: 训练集包含所有收集的模拟和在线测试系列,测试集包含所有AIIMS PG考试多选题,验证集包含NEET PG考试多选题。

数据集创建

  • 来源数据: 数据从官方网站和书籍中收集,覆盖1991年至今的AIIMS和NEET PG考试题目。

  • 语言创建者: 专家生成

  • 注释: 数据集不包含额外注释。

搜集汇总
数据集介绍
main_image_url
构建方式
MedMCQA数据集的构建基于对现实世界医学入学考试问题的深入分析,整合了超过194k个高质量的人工智能模拟及在线测试系列的多选题。数据集通过收集AIIMS & NEET PG入学考试的多选题,并经过专家审核和编辑,以确保问题的准确性和多样性。构建过程中,数据集的来源包括历史考试题目和官方书籍,并通过去除相似问题来提高数据集的质量和模型的泛化能力。
特点
该数据集的特点在于其大规模、多学科和多主题的覆盖。MedMCQA包含的题目不仅数量庞大,而且涉及2.4k个医疗保健主题和21个医学学科,具有高度的主题多样性。每个样本包含一个问题、正确答案以及其他选项,这些问题需要深入的语言理解和推理能力,以测试模型在广泛的医学学科和主题上的表现。此外,数据集还提供了详细的答案解释。
使用方法
使用MedMCQA数据集时,用户可以将其分为训练集、测试集和验证集,以模拟真实医学考试的标准。训练集包含所有收集的模拟和在线测试系列,测试集由AIIMS PG考试的多选题组成,验证集则由NEET PG考试的多选题构成。用户可以根据需要选择适当的配置文件来加载数据,并通过HuggingFace的库来训练和评估模型。
背景与挑战
背景概述
MedMCQA数据集,全称为Medical Multiple-Choice Question Answering,是一个大规模的多选题问答数据集,旨在应对现实世界中医学入学考试的问题。该数据集由Ankit Pal、Logesh Kumar Umapathi和Malaikannan Sankarasubbu创建,收集了超过194k个高质量的AIIMS和NEET PG入学考试多选题,覆盖了2.4k个医疗保健主题和21个医学科目。MedMCQA数据集的构建旨在填补之前生物医学多选题问答数据集的空白,并提供了一个开源的数据集,以促进自然语言处理社区的研究。该数据集的平均token长度为12.77,具有高度的主题多样性,每个样本包含一个问题、正确答案以及其他选项,这要求模型具备深入的语言理解和超过10种的推理能力,跨越广泛的医学科目和主题。
当前挑战
MedMCQA数据集在构建过程中面临的挑战主要包括:1) 收集和整理大量高质量的医学入学考试问题,保证问题的准确性和多样性;2) 处理和平衡数据集中的主题和科目,确保数据集能够全面覆盖医学领域的知识点;3) 由于医学领域的专业性和复杂性,数据集的构建需要医学专家的参与和指导,以保证数据集的质量和可靠性;4) 在数据集的应用过程中,需要解决模型对医学专业知识的理解和推理能力,以及如何准确评估模型在医学问题解答上的性能。
常用场景
经典使用场景
MedMCQA数据集作为医学领域大规模的多选题问答(MCQA)数据集,其经典使用场景在于模拟真实世界医学入学考试中的问题。该数据集包含超过19.4万高质量的问题,覆盖了2400多个医疗保健主题和21个医学科目,平均标记长度为12.77,主题多样性高。每个样本都包含一个问题、正确答案和其他选项,这些问题需要更深入的语言理解,因为它测试了模型在广泛医学主题和话题上的10多个推理能力。数据集还提供了关于解决方案的详细解释。
衍生相关工作
MedMCQA数据集的创建和发布,推动了医学领域问答系统的进一步发展。在此基础上,许多研究者和机构开展了相关研究,例如:1. 利用MedMCQA数据集训练医学问答模型,以提高模型的准确性和泛化能力;2. 基于MedMCQA数据集开发医学教育工具,以帮助学生和医生更好地学习医学知识;3. 利用MedMCQA数据集研究医学领域问答系统的性能和局限性。
数据集最近研究
最新研究方向
MedMCQA数据集作为大规模的多选题问答资源,近期在医学自然语言处理领域引起了广泛关注。其研究方向主要集中在构建能够处理医学领域复杂问题的问答系统,尤其是在模拟医学入学考试的环境中。研究者们利用该数据集对模型进行训练,以提升其在理解医学概念、诊断流程以及治疗方案等方面的推理能力。MedMCQA的数据多样性和深度,使其成为评估模型在医学领域多选题问答性能的重要基准,对于推动医学信息学的进步和人工智能在医疗诊断辅助中的应用具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作