MMLU (Massive Multitask Language Understanding)
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/MMLU
下载链接
链接失效反馈官方服务:
资源简介:
MMLU (大规模多任务语言理解) 是一种新的基准,旨在通过仅在零射击和少射击设置中评估模型来衡量预训练期间获得的知识。这使得基准测试更具挑战性,更类似于我们评估人类的方式。该基准涵盖了STEM,人文学科,社会科学等领域的57个主题。它的难度从初级水平到高级专业水平,它考验世界知识和解决问题的能力。学科范围从传统领域 (例如数学和历史) 到更专业的领域 (例如法律和道德)。对象的粒度和广度使基准成为识别模型盲点的理想选择。
提供机构:
OpenDataLab
创建时间:
2022-06-28
搜集汇总
数据集介绍

背景与挑战
背景概述
MMLU是一个大规模多任务语言理解基准,用于在零射击和少射击设置下评估预训练模型的知识掌握程度。它覆盖57个学科,难度从初级到专业,旨在测试模型的世界知识和问题解决能力。
以上内容由遇见数据集搜集并总结生成



