five

Stevross/mmlu

收藏
Hugging Face2023-07-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Stevross/mmlu
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于问答任务的多项选择问答数据集,涵盖了广泛的学科领域。数据集为单语(英语),规模在10K到100K之间。数据集由专家生成,不包含注释。许可证为MIT,数据来源为原创。数据集分为多个配置,每个配置都有其特定的特征和分割,包括辅助训练集、测试集、验证集和开发集。

该数据集是一个用于问答任务的多项选择问答数据集,涵盖了广泛的学科领域。数据集为单语(英语),规模在10K到100K之间。数据集由专家生成,不包含注释。许可证为MIT,数据来源为原创。数据集分为多个配置,每个配置都有其特定的特征和分割,包括辅助训练集、测试集、验证集和开发集。
提供机构:
Stevross
原始信息汇总

数据集概述

基本信息

  • 标注创建者: 无标注
  • 语言创建者: 专家生成
  • 语言: 英语
  • 许可证: MIT
  • 多语言性: 单语
  • 数据集大小: 10K<n<100K
  • 源数据集: 原始数据
  • 任务类别: 问答
  • 任务ID: 多选题问答
  • PapersWithCode ID: mmlu
  • 数据集名称: Measuring Massive Multitask Language Understanding
  • 语言BCP47: en-US

数据集配置详情

抽象代数 (abstract_algebra)

  • 特征:
    • 问题 (question): 字符串
    • 选项 (choices): 字符串序列
    • 答案 (answer): 类别标签,选项为 A, B, C, D
  • 分割:
    • auxiliary_train: 160601377 字节, 99842 样本
    • test: 19328 字节, 100 样本
    • validation: 2024 字节, 11 样本
    • dev: 830 字节, 5 样本
  • 下载大小: 166184960 字节
  • 数据集大小: 160623559 字节

解剖学 (anatomy)

  • 特征:
    • 问题 (question): 字符串
    • 选项 (choices): 字符串序列
    • 答案 (answer): 类别标签,选项为 A, B, C, D
  • 分割:
    • auxiliary_train: 160601377 字节, 99842 样本
    • test: 33121 字节, 135 样本
    • validation: 3140 字节, 14 样本
    • dev: 967 字节, 5 样本
  • 下载大小: 166184960 字节
  • 数据集大小: 160638605 字节

天文学 (astronomy)

  • 特征:
    • 问题 (question): 字符串
    • 选项 (choices): 字符串序列
    • 答案 (answer): 类别标签,选项为 A, B, C, D
  • 分割:
    • auxiliary_train: 160601377 字节, 99842 样本
    • test: 46771 字节, 152 样本
    • validation: 5027 字节, 16 样本
    • dev: 2076 字节, 5 样本
  • 下载大小: 166184960 字节
  • 数据集大小: 160655251 字节

商业伦理 (business_ethics)

  • 特征:
    • 问题 (question): 字符串
    • 选项 (choices): 字符串序列
    • 答案 (answer): 类别标签,选项为 A, B, C, D
  • 分割:
    • auxiliary_train: 160601377 字节, 99842 样本
    • test: 33252 字节, 100 样本
    • validation: 3038 字节, 11 样本
    • dev: 2190 字节, 5 样本
  • 下载大小: 166184960 字节
  • 数据集大小: 160639857 字节

临床知识 (clinical_knowledge)

  • 特征:
    • 问题 (question): 字符串
    • 选项 (choices): 字符串序列
    • 答案 (answer): 类别标签,选项为 A, B, C, D
  • 分割:
    • auxiliary_train: 160601377 字节, 99842 样本
    • test: 62754 字节, 265 样本
    • validation: 6664 字节, 29 样本
    • dev: 1210 字节, 5 样本
  • 下载大小: 166184960 字节
  • 数据集大小: 160672005 字节

大学生物学 (college_biology)

  • 特征:
    • 问题 (question): 字符串
    • 选项 (choices): 字符串序列
    • 答案 (answer): 类别标签,选项为 A, B, C, D
  • 分割:
    • auxiliary_train: 160601377 字节, 99842 样本
    • test: 48797 字节, 144 样本
    • validation: 4819 字节, 16 样本
    • dev: 1532 字节, 5 样本
  • 下载大小: 166184960 字节
  • 数据集大小: 160656525 字节

大学化学 (college_chemistry)

  • 特征:
    • 问题 (question): 字符串
    • 选项 (choices): 字符串序列
    • 答案 (answer): 类别标签,选项为 A, B, C, D
  • 分割:
    • auxiliary_train: 160601377 字节, 99842 样本
    • test: 24708 字节, 100 样本
    • validation: 2328 字节, 8 样本
    • dev: 1331 字节, 5 样本
  • 下载大小: 166184960 字节
  • 数据集大小: 160629744 字节

大学计算机科学 (college_computer_science)

  • 特征:
    • 问题 (question): 字符串
    • 选项 (choices): 字符串序列
    • 答案 (answer): 类别标签,选项为 A, B, C, D
  • 分割:
    • auxiliary_train: 160601377 字节, 99842 样本
    • test: 42641 字节, 100 样本
    • validation: 4663 字节, 11 样本
    • dev: 2765 字节, 5 样本
  • 下载大小: 166184960 字节
  • 数据集大小: 160651446 字节

大学数学 (college_mathematics)

  • 特征:
    • 问题 (question): 字符串
    • 选项 (choices): 字符串序列
    • 答案 (answer): 类别标签,选项为 A, B, C, D
  • 分割:
    • auxiliary_train: 160601377 字节, 99842 样本
    • test: 24711 字节, 100 样本
    • validation: 2668 字节, 11 样本
    • dev: 1493 字节, 5 样本
  • 下载大小: 166184960 字节
  • 数据集大小: 160630249 字节

大学医学 (college_medicine)

  • 特征:
    • 问题 (question): 字符串
    • 选项 (choices): 字符串序列
    • 答案 (answer): 类别标签,选项为 A, B, C, D
  • 分割:
    • auxiliary_train: 160601377 字节, 99842 样本
    • test: 82397 字节, 173 样本
    • validation: 7909 字节, 22 样本
    • dev: 1670 字节, 5 样本
  • 下载大小: 166184960 字节
  • 数据集大小: 160693353 字节

大学物理 (college_physics)

  • 特征:
    • 问题 (question): 字符串
    • 选项 (choices): 字符串序列
    • 答案 (answer): 类别标签,选项为 A, B, C, D
  • 分割:
    • auxiliary_train: 160601377 字节, 99842 样本
    • test: 30181 字节, 102 样本
    • validation: 3490 字节, 11 样本
    • dev: 1412 字节, 5 样本
  • 下载大小: 166184960 字节
  • 数据集大小: 160636460 字节

计算机安全 (computer_security)

  • 特征:
    • 问题 (question): 字符串
    • 选项 (choices): 字符串序列
    • 答案 (answer): 类别标签,选项为 A, B, C, D
  • 分割:
    • auxiliary_train: 160601377 字节, 99842 样本
    • test: 27124 字节, 100 样本
    • validation: 4549 字节, 11 样本
    • dev: 1101 字节, 5 样本
  • 下载大小: 166184960 字节
  • 数据集大小: 160634151 字节

概念物理 (conceptual_physics)

  • 特征:
    • 问题 (question): 字符串
    • 选项 (choices): 字符串序列
    • 答案 (answer): 类别标签,选项为 A, B, C, D
  • 分割:
    • auxiliary_train: 160601377 字节, 99842 样本
    • test: 40709 字节, 235 样本
    • validation: 4474 字节, 26 样本
    • dev: 934 字节, 5 样本
  • 下载大小: 166184960 字节
  • 数据集大小: 160647494 字节

计量经济学 (econometrics)

  • 特征:
    • 问题 (question): 字符串
    • 选项 (choices): 字符串序列
    • 答案 (answer): 类别标签,选项为 A, B, C, D
  • 分割:
    • auxiliary_train: 160601377 字节, 99842 样本
    • test: 46547 字节, 114 样本
    • validation: 4967 字节, 12 样本
    • dev: 1644 字节, 5 样本
  • 下载大小: 166184960 字节
  • 数据集大小: 160654535 字节

电气工程 (electrical_engineering)

  • 特征:
    • 问题 (question): 字符串
    • 选项 (choices): 字符串序列
    • 答案 (answer): 类别标签,选项为 A, B, C, D
  • 分割:
    • auxiliary_train: 160601377 字节, 99842 样本
    • test: 25142 字节, 145 样本
    • validation: 2903 字节, 16 样本
    • dev: 972 字节, 5 样本
  • 下载大小: 166184960 字节
  • 数据集大小: 160630394 字节

初等数学 (elementary_mathematics)

  • 特征:
    • 问题 (question): 字符串
    • 选项 (choices): 字符串序列
    • 答案 (answer): 类别标签,选项为 A, B, C, D
  • 分割:
    • auxiliary_train: 160601377 字节, 99842 样本
    • test: 70108 字节, 378 样本
    • validation: 8988 字节, 41 样本
    • dev: 1440 字节, 5 样本
  • 下载大小: 166184960 字节
  • 数据集大小: 160681913 字节

形式逻辑 (formal_logic)

  • 特征:
    • 问题 (question): 字符串
    • 选项 (choices): 字符串序列
    • 答案 (answer): 类别标签,选项为 A, B, C, D
  • 分割:
    • auxiliary_train: 160601377 字节, 99842 样本
    • test: 49785 字节, 126 样本
    • validation: 6252 字节, 14 样本
    • dev: 1757 字节, 5 样本
  • 下载大小: 166184960 字节
  • 数据集大小: 160659171 字节

全球事实 (global_facts)

  • 特征:
    • 问题 (question): 字符串
    • 选项 (choices): 字符串序列
    • 答案 (answer): 类别标签,选项为 A, B, C, D
  • 分割:
    • auxiliary_train: 160601377 字节, 99842 样本
    • test: 18403 字节, 100 样本
    • validation: 1865 字节, 10 样本
    • dev: 1229 字节, 5 样本
  • 下载大小: 166184960 字节
  • 数据集大小: 160622874 字节

高中生物学 (high_school_biology)

  • 特征:
    • 问题 (question): 字符串
    • 选项 (choices): 字符串序列
    • 答案 (answer): 类别标签,选项为 A, B, C, D
  • 分割:
    • auxiliary_train: 160601377 字节, 99842 样本
    • test: 109732 字节, 310 样本
    • validation: 11022 字节, 32 样本
    • dev: 1673 字节, 5 样本
  • 下载大小: 166184960 字节
  • 数据集大小: 160723804 字节

高中化学 (high_school_chemistry)

  • 特征:
    • 问题 (question): 字符串
    • 选项 (choices): 字符串序列
    • 答案 (answer): 类别标签,选项为 A, B, C, D
  • 分割:
    • auxiliary_train: 160601377 字节, 99842 样本
    • test: 58464 字节, 203 样本
    • validation: 7092 字节, 22 样本
    • dev: 1220 字节, 5 样本
  • 下载大小: 166184960 字节
  • 数据集大小: 160668153 字节

高中计算机科学 (high_school_computer_science)

  • 特征:
    • 问题 (question): 字符串
    • 选项 (choices): 字符串序列
    • 答案 (answer): 类别标签,选项为 A, B, C, D
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作