five

MMLU-NoOp-Plus

收藏
Hugging Face2024-12-01 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/LFrancis/MMLU-NoOp-Plus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个学科的问答数据,每个学科有不同的配置,包括问题、学科、选项和答案。数据集分为训练集,并提供了每个配置的下载大小和数据集大小。

This dataset contains question-answering data across multiple disciplines. Each discipline has distinct configurations that include questions, their respective disciplines, options, and answers. The dataset is split into training sets, and the download size and dataset size for each configuration are provided.
创建时间:
2024-12-01
原始信息汇总

MMLU-NoOp-Plus 数据集概述

数据集配置

抽象代数

  • 配置名称: abstract_algebra
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 21316
      • num_examples: 100
  • 下载大小: 9465
  • 数据集大小: 21316

抽象代数_addition

  • 配置名称: abstract_algebra_addition
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 35689
      • num_examples: 100
  • 下载大小: 16915
  • 数据集大小: 35689

抽象代数_lexicon

  • 配置名称: abstract_algebra_lexicon
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 21440
      • num_examples: 100
  • 下载大小: 9664
  • 数据集大小: 21440

抽象代数_naive

  • 配置名称: abstract_algebra_naive
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 24516
      • num_examples: 100
  • 下载大小: 9939
  • 数据集大小: 24516

抽象代数_syntax

  • 配置名称: abstract_algebra_syntax
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 21156
      • num_examples: 100
  • 下载大小: 10062
  • 数据集大小: 21156

all

  • 配置名称: all
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 6967453
      • num_examples: 14042
  • 下载大小: 3489306
  • 数据集大小: 6967453

all_addition

  • 配置名称: all_addition
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 9154533
      • num_examples: 14042
  • 下载大小: 4731170
  • 数据集大小: 9154533

all_lexicon

  • 配置名称: all_lexicon
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 6998839
      • num_examples: 14042
  • 下载大小: 3527454
  • 数据集大小: 6998839

all_naive

  • 配置名称: all_naive
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 7416797
      • num_examples: 14042
  • 下载大小: 3529049
  • 数据集大小: 7416797

all_syntax

  • 配置名称: all_syntax
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 6943670
      • num_examples: 14042
  • 下载大小: 3491767
  • 数据集大小: 6943670

解剖学

  • 配置名称: anatomy
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 34594
      • num_examples: 135
  • 下载大小: 19519
  • 数据集大小: 34594

解剖学_addition

  • 配置名称: anatomy_addition
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 53981
      • num_examples: 135
  • 下载大小: 30250
  • 数据集大小: 53981

解剖学_lexicon

  • 配置名称: anatomy_lexicon
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 34614
      • num_examples: 135
  • 下载大小: 19479
  • 数据集大小: 34614

解剖学_naive

  • 配置名称: anatomy_naive
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 38914
      • num_examples: 135
  • 下载大小: 20048
  • 数据集大小: 38914

解剖学_syntax

  • 配置名称: anatomy_syntax
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 34578
      • num_examples: 135
  • 下载大小: 19622
  • 数据集大小: 34578

天文学

  • 配置名称: astronomy
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 48735
      • num_examples: 152
  • 下载大小: 27777
  • 数据集大小: 48735

天文学_addition

  • 配置名称: astronomy_addition
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 71781
      • num_examples: 152
  • 下载大小: 40307
  • 数据集大小: 71781

天文学_lexicon

  • 配置名称: astronomy_lexicon
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 48876
      • num_examples: 152
  • 下载大小: 27943
  • 数据集大小: 48876

天文学_naive

  • 配置名称: astronomy_naive
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 53599
      • num_examples: 152
  • 下载大小: 28367
  • 数据集大小: 53599

天文学_syntax

  • 配置名称: astronomy_syntax
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 48698
      • num_examples: 152
  • 下载大小: 28119
  • 数据集大小: 48698

商业伦理

  • 配置名称: business_ethics
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 35140
      • num_examples: 100
  • 下载大小: 20672
  • 数据集大小: 35140

商业伦理_addition

  • 配置名称: business_ethics_addition
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 51147
      • num_examples: 100
  • 下载大小: 29828
  • 数据集大小: 51147

商业伦理_lexicon

  • 配置名称: business_ethics_lexicon
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 35239
      • num_examples: 100
  • 下载大小: 20715
  • 数据集大小: 35239

商业伦理_naive

  • 配置名称: business_ethics_naive
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 38340
      • num_examples: 100
  • 下载大小: 21094
  • 数据集大小: 38340

商业伦理_syntax

  • 配置名称: business_ethics_syntax
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 35114
      • num_examples: 100
  • 下载大小: 20688
  • 数据集大小: 35114

临床知识

  • 配置名称: clinical_knowledge
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 68572
      • num_examples: 265
  • 下载大小: 39840
  • 数据集大小: 68572

临床知识_addition

  • 配置名称: clinical_knowledge_addition
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 107520
      • num_examples: 265
  • 下载大小: 61110
  • 数据集大小: 107520

临床知识_lexicon

  • 配置名称: clinical_knowledge_lexicon
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 68749
      • num_examples: 265
  • 下载大小: 40052
  • 数据集大小: 68749

临床知识_naive

  • 配置名称: clinical_knowledge_naive
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 77052
      • num_examples: 265
  • 下载大小: 40596
  • 数据集大小: 77052

临床知识_syntax

  • 配置名称: clinical_knowledge_syntax
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 68555
      • num_examples: 265
  • 下载大小: 39895
  • 数据集大小: 68555

大学生物学

  • 配置名称: college_biology
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 51521
      • num_examples: 144
  • 下载大小: 31192
  • 数据集大小: 51521

大学生物学_addition

  • 配置名称: college_biology_addition
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 73646
      • num_examples: 144
  • 下载大小: 43725
  • 数据集大小: 73646

大学生物学_lexicon

  • 配置名称: college_biology_lexicon
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 51645
      • num_examples: 144
  • 下载大小: 31311
  • 数据集大小: 51645

大学生物学_naive

  • 配置名称: college_biology_naive
  • 特征:
    • question: string
    • subject: string
    • choices: sequence of string
    • answer: int64
  • 分割:
    • train:
      • num_bytes: 56129
搜集汇总
数据集介绍
main_image_url
构建方式
MMLU-NoOp-Plus数据集的构建基于多个学科领域的知识问答,涵盖了从抽象代数到计算机安全等多个主题。每个学科配置包含一系列问题、对应的选项以及正确答案的索引。数据集通过不同的配置名称进行区分,如‘abstract_algebra’、‘anatomy’等,每个配置下包含训练集,且每个训练集的样本数量和数据大小均有详细记录。
特点
该数据集的特点在于其广泛的主题覆盖和多样化的学科配置,能够为不同领域的知识问答任务提供丰富的训练数据。每个问题都附带多个选项和正确答案的索引,便于模型进行多选题的训练和评估。此外,数据集的配置名称和数据大小等信息清晰标注,便于用户根据需求选择合适的子集进行使用。
使用方法
使用MMLU-NoOp-Plus数据集时,用户可以根据具体的研究领域选择相应的配置进行加载。数据集提供了问题、主题、选项和答案等字段,用户可以通过这些字段进行模型的训练和评估。对于多选题任务,用户可以利用答案索引字段来验证模型的输出。数据集的加载和使用可以通过HuggingFace的datasets库进行,确保了使用的便捷性和高效性。
背景与挑战
背景概述
MMLU-NoOp-Plus数据集由多个子集组成,涵盖了从抽象代数到计算机安全等多个学科领域。该数据集的核心研究问题在于评估和提升模型在多学科知识问答任务中的表现。通过提供多样化的学科问题和答案选项,MMLU-NoOp-Plus旨在帮助研究人员开发更全面、更准确的智能问答系统。该数据集的创建时间未明确提及,但其设计反映了当前人工智能领域对跨学科知识处理能力的迫切需求。主要研究人员或机构未在提供的资料中详细说明,但其对多学科知识问答领域的贡献不容忽视。
当前挑战
MMLU-NoOp-Plus数据集面临的挑战主要集中在两个方面。首先,跨学科知识的复杂性和多样性使得模型在处理不同领域问题时面临巨大的挑战。不同学科的术语、概念和逻辑结构各异,要求模型具备高度的适应性和泛化能力。其次,数据集的构建过程中,如何确保问题的质量和答案的准确性也是一个重要挑战。此外,数据集的规模和多样性虽然丰富,但如何在有限的资源下高效利用这些数据,提升模型的性能,也是研究人员需要解决的问题。
常用场景
经典使用场景
MMLU-NoOp-Plus数据集的经典使用场景主要集中在多学科知识的评估与测试上。该数据集涵盖了从抽象代数到计算机安全等多个学科领域,通过提供多选题形式的问题,帮助研究者和教育者评估学习者在不同学科上的知识掌握情况。其多样化的学科配置使得该数据集在教育评估、智能辅导系统以及跨学科知识整合的研究中具有广泛的应用价值。
实际应用
在实际应用中,MMLU-NoOp-Plus数据集被广泛应用于教育领域的智能评估系统。例如,在在线教育平台中,该数据集可用于生成个性化的测试题目,帮助学生评估其在不同学科上的掌握情况。同时,该数据集还可用于开发智能辅导系统,通过分析学生的答题情况,提供针对性的学习建议。此外,在跨学科研究中,该数据集为研究者提供了丰富的数据资源,支持多学科知识整合与迁移的研究。
衍生相关工作
基于MMLU-NoOp-Plus数据集,研究者们开发了多种智能评估与学习系统。例如,有研究利用该数据集构建了跨学科的知识图谱,用于分析学科间的知识关联与迁移路径。此外,还有学者基于该数据集开发了个性化学习推荐系统,通过分析学生的答题数据,为其推荐最合适的学习资源与路径。这些衍生工作不仅丰富了教育技术的研究领域,也为实际教育应用提供了有力的技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作