five

MedMCQA|医学教育数据集|问答系统数据集

收藏
github2022-11-28 更新2024-05-31 收录
医学教育
问答系统
下载链接:
https://github.com/medmcqa/medmcqa
下载链接
链接失效反馈
资源简介:
MedMCQA是一个大规模的多选题问答数据集,专门设计用于解决真实世界医学入学考试问题。该数据集包含超过194,000个高质量的AIIMS和NEET PG入学考试多选题,覆盖2,400个医疗保健主题和21个医学科目,平均令牌长度为12.77,具有高度的主题多样性。每个样本包含一个问题、正确答案和其他选项,这些需要更深入的语言理解,因为它测试了模型在广泛的医学科目和主题上的10多种推理能力。本研究还提供了详细的解决方案解释。

MedMCQA is a large-scale multiple-choice question answering dataset specifically designed to address real-world medical entrance examination questions. The dataset comprises over 194,000 high-quality multiple-choice questions from AIIMS and NEET PG entrance exams, covering 2,400 healthcare topics and 21 medical subjects, with an average token length of 12.77, showcasing a high degree of topic diversity. Each sample includes a question, the correct answer, and other options, which require deeper linguistic comprehension as they test the model's reasoning abilities across a wide range of medical subjects and topics. This study also provides detailed solution explanations.
创建时间:
2022-03-27
原始信息汇总

数据集概述

数据集名称

MedMCQA

数据集描述

MedMCQA是一个大规模的多科目多选择题问答(MCQA)数据集,专门设计用于解决现实世界医学入学考试的问题。该数据集包含超过194,000个高质量的AIIMS和NEET PG入学考试的多选题,涵盖2,400个医疗保健主题和21个医学科目,平均令牌长度为12.77,具有高度的主题多样性。

数据集内容

每个样本包含一个问题、正确答案(s)和其他选项,这些选项需要更深入的语言理解,因为它们测试了模型在广泛的医学科目和主题上的10多种推理能力。此外,每个问题都附有详细的解答说明。

数据集结构

数据实例

每个数据实例包括:

  • id:问题标识符
  • question:问题文本
  • opa, opb, opc, opd:选项A、B、C、D
  • cop:正确选项
  • choice_type:单选或多选
  • exp:答案的专家解释
  • subject_name:医学科目名称
  • topic_name:医学主题名称

数据分割

数据集根据考试类型分为训练集、验证集和测试集,确保模型的可重用性和泛化能力。

分割 问题数量 词汇量 最大问题令牌数 最大答案令牌数
训练 182,822 94,231 220 38
验证 6,150 11,218 135 21
测试 4,183 10,800 88 25

数据集用途

MedMCQA旨在促进自然语言处理社区的研究,特别是提高问答系统的性能。该数据集适用于训练模型进行多选题问答和开放域问答。

数据集语言

所有问题和答案均为英语。

AI搜集汇总
数据集介绍
main_image_url
构建方式
MedMCQA数据集的构建基于现实世界医学入学考试题目,涵盖了超过194,000道高质量的多选题,这些题目来源于AIIMS和NEET PG入学考试,覆盖了2,400个医疗主题和21个医学学科。每个样本包含一个问题、正确答案及其他选项,旨在测试模型在广泛医学主题和话题上的10多种推理能力。数据集的构建过程中,特别注重了题目的多样性和深度,确保每个问题都附有详细的解答说明。
使用方法
使用MedMCQA数据集时,首先需要从指定的Google Drive链接下载数据,并按照提供的预处理步骤进行数据准备。数据集支持多种任务,包括多选题问答和开放域问答。用户可以通过克隆GitHub仓库并安装依赖项来运行实验代码。为了评估模型性能,用户需要在测试集上运行模型,并将预测结果通过指定的Google表单提交。提交的预测结果需要遵循特定的格式要求,确保答案索引从1开始,并且所有正确选项都在1到4的范围内。
背景与挑战
背景概述
MedMCQA数据集由Ankit Pal、Logesh Kumar Umapathi和Malaikannan Sankarasubbu等研究人员于2022年推出,旨在解决医学领域的多选问答问题。该数据集包含了超过19.4万道高质量的AIIMS和NEET PG入学考试题目,涵盖了21个医学学科和2400多个医疗主题。这些题目不仅测试了模型的语言理解能力,还考察了其在广泛医学主题中的推理能力。MedMCQA的推出为自然语言处理社区提供了一个重要的资源,推动了医学问答系统的研究与发展。
当前挑战
MedMCQA数据集在构建过程中面临了多方面的挑战。首先,医学领域的多选问答问题通常需要深度的领域知识和复杂的推理能力,这对模型的泛化能力提出了极高的要求。其次,数据集的构建需要确保题目的多样性和高质量,以避免模型在训练过程中出现过拟合现象。此外,由于医学知识的快速更新,数据集需要定期更新以保持其时效性和准确性。最后,数据集的评估过程需要严格保密测试集的真实答案,以确保评估结果的公正性和可靠性。
常用场景
经典使用场景
MedMCQA数据集在医学领域的自然语言处理研究中扮演着重要角色,尤其是在多选问答系统的开发与评估中。该数据集通过提供超过19万道高质量的医学考试题目,涵盖了21个医学学科和2400个医疗主题,为研究者提供了一个丰富的资源库。这些题目不仅测试模型的语言理解能力,还要求模型具备跨学科的推理能力,从而在模拟真实医学考试环境中评估和提升模型的性能。
解决学术问题
MedMCQA数据集解决了医学领域问答系统中模型泛化能力和推理能力的评估难题。通过提供详细的题目解释和多样化的医学主题,该数据集帮助研究者深入理解模型在处理复杂医学问题时的表现。此外,数据集的结构设计使得模型能够在不同医学学科之间进行有效的知识迁移,从而推动了医学问答系统的技术进步。
实际应用
在实际应用中,MedMCQA数据集被广泛用于开发智能医学教育工具和临床决策支持系统。通过训练模型处理复杂的医学考试题目,这些系统能够为医学生提供个性化的学习建议,或为临床医生提供实时的诊断支持。此外,数据集的多样性使得模型能够适应不同医学场景的需求,从而在医疗教育和临床实践中发挥重要作用。
数据集最近研究
最新研究方向
近年来,MedMCQA数据集在医学领域的自然语言处理研究中占据了重要地位,尤其是在医学问答系统的开发与优化方面。该数据集涵盖了21个医学学科和2400多个医疗主题,提供了超过19.4万道高质量的多项选择题,这些题目源自印度医学入学考试(AIIMS和NEET PG)。MedMCQA不仅挑战了模型的语言理解能力,还测试了其在广泛医学主题中的推理能力。当前的研究方向主要集中在如何利用深度学习模型,如BERT和GPT,来提升模型在复杂医学问题上的表现。此外,研究者们也在探索如何通过多任务学习和迁移学习技术,进一步增强模型在跨学科医学问题上的泛化能力。这些研究不仅推动了医学问答系统的发展,也为未来的医疗人工智能应用奠定了坚实的基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

PlantVillage

在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录