MedMCQA|医学教育数据集|问答系统数据集
收藏数据集概述
数据集名称
MedMCQA
数据集描述
MedMCQA是一个大规模的多科目多选择题问答(MCQA)数据集,专门设计用于解决现实世界医学入学考试的问题。该数据集包含超过194,000个高质量的AIIMS和NEET PG入学考试的多选题,涵盖2,400个医疗保健主题和21个医学科目,平均令牌长度为12.77,具有高度的主题多样性。
数据集内容
每个样本包含一个问题、正确答案(s)和其他选项,这些选项需要更深入的语言理解,因为它们测试了模型在广泛的医学科目和主题上的10多种推理能力。此外,每个问题都附有详细的解答说明。
数据集结构
数据实例
每个数据实例包括:
id
:问题标识符question
:问题文本opa
,opb
,opc
,opd
:选项A、B、C、Dcop
:正确选项choice_type
:单选或多选exp
:答案的专家解释subject_name
:医学科目名称topic_name
:医学主题名称
数据分割
数据集根据考试类型分为训练集、验证集和测试集,确保模型的可重用性和泛化能力。
分割 | 问题数量 | 词汇量 | 最大问题令牌数 | 最大答案令牌数 |
---|---|---|---|---|
训练 | 182,822 | 94,231 | 220 | 38 |
验证 | 6,150 | 11,218 | 135 | 21 |
测试 | 4,183 | 10,800 | 88 | 25 |
数据集用途
MedMCQA旨在促进自然语言处理社区的研究,特别是提高问答系统的性能。该数据集适用于训练模型进行多选题问答和开放域问答。
数据集语言
所有问题和答案均为英语。

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
PlantVillage
在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。
OpenDataLab 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录