MMLU-Pro 大规模多任务理解数据集

超神经2024-09-12 更新2024-12-14 收录

下载链接：

https://hyper.ai/cn/datasets/34261

下载链接

链接失效反馈

官方服务：

资源简介：

MMLU-Pro 数据集是一个更强大且更具挑战性的大规模多任务理解数据集，旨在更严格地对大型语言模型的功能进行基准测试。该数据集包含 12K 个跨学科的复杂问题。该数据集由滑铁卢大学，多伦多大学，卡内基梅隆大学的研究人员于 2024 年发布，相关论文成果为「MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark」。

MMLU-Pro is a more robust and challenging large-scale multi-task language understanding benchmark designed to perform stricter functional benchmarking of large language models. This dataset contains 12,000 complex interdisciplinary questions. It was released in 2024 by researchers from the University of Waterloo, University of Toronto, and Carnegie Mellon University, with its associated research paper titled "MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark".

创建时间：

2024-09-11

搜集汇总

数据集介绍

背景与挑战

背景概述

MMLU-Pro是一个于2024年发布的大规模多任务理解数据集，包含12K个跨学科的复杂问题，每个问题通常有10个多项选择题选项，旨在通过增加选项数量和问题难度来更严格地评估大型语言模型的推理能力。该数据集整合了原始MMLU、STEM网站、TheoremQA和SciBench等多个来源的问题，覆盖生物学、商业、化学等多个学科，相比原版MMLU，它提高了基准的稳健性，降低了偶然猜对的概率，并增强了模型对提示变化的鲁棒性。

以上内容由遇见数据集搜集并总结生成