MedMCQA|医学教育数据集|问答系统数据集
收藏数据集概述
数据集名称
MedMCQA
数据集描述
MedMCQA是一个大规模的多科目多选择题问答(MCQA)数据集,专门设计用于解决现实世界医学入学考试的问题。该数据集包含超过194,000个高质量的AIIMS和NEET PG入学考试的多选题,涵盖2,400个医疗保健主题和21个医学科目,平均令牌长度为12.77,具有高度的主题多样性。
数据集内容
每个样本包含一个问题、正确答案(s)和其他选项,这些选项需要更深入的语言理解,因为它们测试了模型在广泛的医学科目和主题上的10多种推理能力。此外,每个问题都附有详细的解答说明。
数据集结构
数据实例
每个数据实例包括:
id
:问题标识符question
:问题文本opa
,opb
,opc
,opd
:选项A、B、C、Dcop
:正确选项choice_type
:单选或多选exp
:答案的专家解释subject_name
:医学科目名称topic_name
:医学主题名称
数据分割
数据集根据考试类型分为训练集、验证集和测试集,确保模型的可重用性和泛化能力。
分割 | 问题数量 | 词汇量 | 最大问题令牌数 | 最大答案令牌数 |
---|---|---|---|---|
训练 | 182,822 | 94,231 | 220 | 38 |
验证 | 6,150 | 11,218 | 135 | 21 |
测试 | 4,183 | 10,800 | 88 | 25 |
数据集用途
MedMCQA旨在促进自然语言处理社区的研究,特别是提高问答系统的性能。该数据集适用于训练模型进行多选题问答和开放域问答。
数据集语言
所有问题和答案均为英语。

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
全国 1∶200 000 数字地质图(公开版)空间数据库
As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.
DataCite Commons 收录
MIMIC-IV数据库
MIMIC全称是Medical Information Mart for Intensive Care, 是一个重症医学数据库。2003年,在NIH的资助下,来自贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)、麻省理工(MIT)、牛津大学和麻省总医院(MGH)的急诊科医生、重症科医生、计算机科学专家等共同建立的一个数据库。
github 收录
中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
International Energy Agency (IEA) Statistics
该数据集包含了国际能源署(IEA)提供的全球能源统计数据,涵盖了能源生产、消费、贸易、价格、排放等多个方面。数据集提供了详细的能源相关指标,包括石油、天然气、煤炭、电力、可再生能源等,适用于能源政策分析、市场研究以及学术研究。
www.iea.org 收录