five

MMLU|模型评估数据集|多学科学习数据集

收藏
github2020-09-01 更新2025-02-08 收录
模型评估
多学科学习
下载链接:
https://github.com/hendrycks/test
下载链接
链接失效反馈
资源简介:
MMLU数据集包含15908道英文选择题,为通过零样本和少样本评估来衡量模型知识熟练度提供了一个基准。该基准涵盖57个学科,包括STEM(科学、技术、工程和数学)、人文科学和社会科学,难度级别从初级到高级不等。学生们从各种免费的在线资源中手工收集了这些问题,包括不同学科的练习题。评估采用基于代码的评估方法。

The MMLU dataset encompasses 15,908 English multiple-choice questions, providing a benchmark for evaluating model proficiency in knowledge through zero-shot and few-shot assessments. This benchmark spans 57 disciplines, including STEM (Science, Technology, Engineering, and Mathematics), humanities, and social sciences, with difficulty levels ranging from elementary to advanced. These questions were manually collected by students from various free online resources, including practice problems from different disciplines. The evaluation is conducted using a code-based assessment method.
提供机构:
UC Berkeley et al.
创建时间:
2020-09-01
原始信息汇总

数据集概述

基本信息

数据集内容

  • 用途:用于评估大规模多任务语言理解能力。
  • 包含内容:OpenAI API评估代码及测试数据。

测试结果

  • 测试模型及结果
模型 作者 人文科学 社会科学 STEM 其他 平均分
Chinchilla (70B, few-shot) Hoffmann et al., 2022 63.6 79.3 54.9 73.9 67.5
Gopher (280B, few-shot) Rae et al., 2021 56.2 71.9 47.4 66.1 60.0
GPT-3 (175B, fine-tuned) Brown et al., 2020 52.5 63.9 41.4 57.9 53.9
flan-T5-xl Chung et al., 2022 46.3 57.7 39.0 55.1 49.3
UnifiedQA Khashabi et al., 2020 45.6 56.6 40.2 54.6 48.9
GPT-3 (175B, few-shot) Brown et al., 2020 40.8 50.4 36.7 48.8 43.9
GPT-3 (6.7B, fine-tuned) Brown et al., 2020 42.1 49.2 35.1 46.9 43.2
flan-T5-large Chung et al., 2022 39.1 49.1 33.2 47.4 41.9
flan-T5-base Chung et al., 2022 34.0 38.1 27.6 37.0 34.2
GPT-2 Radford et al., 2019 32.8 33.3 30.2 33.1 32.4
flan-T5-small Chung et al., 2022 29.9 30.9 27.5 29.7 29.5
Random Baseline N/A 25.0 25.0 25.0 25.0 25.0

引用信息

  • 主数据集引用: bibtex @article{hendryckstest2021, title={Measuring Massive Multitask Language Understanding}, author={Dan Hendrycks and Collin Burns and Steven Basart and Andy Zou and Mantas Mazeika and Dawn Song and Jacob Steinhardt}, journal={Proceedings of the International Conference on Learning Representations (ICLR)}, year={2021} }

  • 相关数据集引用: bibtex @article{hendrycks2021ethics, title={Aligning AI With Shared Human Values}, author={Dan Hendrycks and Collin Burns and Steven Basart and Andrew Critch and Jerry Li and Dawn Song and Jacob Steinhardt}, journal={Proceedings of the International Conference on Learning Representations (ICLR)}, year={2021} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
MMLU数据集旨在评估大规模多任务语言理解能力,其构建过程涵盖了广泛的学科领域,包括人文学科、社会科学、STEM(科学、技术、工程和数学)以及其他领域。数据集的构建基于对现有学术资源和公开测试题的整合与扩展,确保了内容的多样性和深度。通过精心设计的测试题目,数据集能够全面衡量模型在不同知识领域的理解和推理能力。
特点
MMLU数据集的特点在于其广泛覆盖的学科领域和多样化的任务类型。数据集不仅包含传统的语言理解任务,还涉及跨学科的知识整合与推理,能够有效评估模型在复杂情境下的表现。此外,数据集的测试题目设计严谨,既包含基础知识的考察,也包含高阶思维能力的挑战,为模型的多任务学习能力提供了全面的评估基准。
使用方法
MMLU数据集的使用方法主要包括下载测试数据并利用提供的OpenAI API进行评估。用户可以通过运行测试代码,将模型的表现与公开的排行榜进行对比,从而了解模型在不同任务中的表现。此外,用户还可以提交自己的模型结果以更新排行榜,或通过GitHub提交拉取请求以参与数据集的进一步开发与优化。
背景与挑战
背景概述
MMLU(Measuring Massive Multitask Language Understanding)数据集由Dan Hendrycks、Collin Burns等研究人员于2021年提出,旨在评估大规模多任务语言理解能力。该数据集涵盖了人文、社会科学、STEM(科学、技术、工程、数学)及其他领域的广泛知识,旨在测试模型在不同学科中的综合理解能力。其研究背景源于对通用人工智能(AGI)的追求,特别是在多任务学习和跨领域知识迁移方面的挑战。MMLU的提出为语言模型的评估提供了新的基准,推动了自然语言处理领域的发展,并在ICLR 2021会议上发表,成为该领域的重要参考。
当前挑战
MMLU数据集面临的挑战主要体现在两个方面。首先,其核心目标是解决多任务语言理解的复杂性,要求模型在多个学科领域中具备广泛的知识覆盖和深度理解能力。然而,不同学科之间的知识差异性和任务多样性使得模型难以在单一框架下实现高效的多任务学习。其次,在数据集的构建过程中,研究人员需要确保数据的多样性和平衡性,涵盖广泛的学科领域,同时避免数据偏差。此外,评估模型的性能时,如何设计公平且全面的测试指标也是一个重要挑战。这些挑战不仅反映了多任务学习的复杂性,也为未来研究提供了重要的方向。
常用场景
经典使用场景
MMLU数据集广泛应用于评估大规模多任务语言理解模型的性能。通过涵盖人文学科、社会科学、STEM和其他领域的多样化任务,该数据集为研究人员提供了一个全面的基准,用于测试模型在不同知识领域的泛化能力。特别是在自然语言处理领域,MMLU被广泛用于评估模型在复杂任务中的表现,如阅读理解、知识推理和跨领域迁移学习。
实际应用
在实际应用中,MMLU数据集为开发更智能的语言模型提供了重要支持。例如,在教育领域,基于MMLU评估的模型可以用于开发智能辅导系统,帮助学生跨学科学习。在商业领域,该数据集的应用有助于构建更强大的客服系统,能够处理多领域的复杂查询。此外,MMLU还为法律、医疗等专业领域的语言模型开发提供了基准测试。
衍生相关工作
MMLU数据集自发布以来,已衍生出多项经典研究工作。例如,基于MMLU的评估结果,研究人员提出了改进的多任务学习架构,如Chinchilla和Gopher模型。这些模型在MMLU的基准测试中表现出色,推动了大规模语言模型的进一步发展。此外,MMLU还为其他多任务学习数据集的设计提供了参考,如ETHICS数据集,进一步扩展了多任务学习的研究范围。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Sleep

该数据集包含关于睡眠效率和持续时间的信息,每个条目代表一个独特的睡眠体验,并包括ID、年龄、性别、睡眠持续时间、睡眠效率、REM睡眠百分比、深度睡眠百分比、轻度睡眠百分比、觉醒次数、咖啡因消费、酒精消费和吸烟状况等列。

github 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录

MIMII数据集

MIMII数据集是由日立有限公司研究与开发集团创建的,专注于工业机器异常声音检测的数据集。该数据集包含26,092个正常操作条件下的声音文件,涵盖阀门、泵、风扇和滑轨四种机器类型。数据集的创建过程中,使用了TAMAGO-03麦克风阵列进行声音采集,并在多个真实工厂环境中混合背景噪声以模拟实际环境。MIMII数据集主要用于机器学习和信号处理社区开发自动化设施维护系统,特别是在无监督学习场景下检测机器异常声音。

arXiv 收录