MMLU benchmark

Name: MMLU benchmark
Creator: 本古里安大学, 特拉维夫大学
Published: 2025-02-11 18:43:36
License: 暂无描述

arXiv2025-02-11 更新2025-02-13 收录

下载链接：

https://github.com/SeffiCohen/CBOD

下载链接

链接失效反馈

官方服务：

资源简介：

MMLU benchmark是由Hendrycks等人于2020年创建的基准测试，包含跨越57个学科的多项选择题。该数据集广泛用于评估LLM在通用知识方面的能力。文中提到，MMLU数据集经过MIT许可发布，研究团队使用DeepSeek工具生成了每个问题的变形版本，以探查LLM对标准提示格式的过度拟合情况。

The MMLU benchmark was created by Hendrycks et al. in 2020. It comprises multiple-choice questions across 57 academic disciplines, and is widely used to evaluate the general knowledge capabilities of large language models (LLMs). As mentioned in the text, the MMLU dataset is released under the MIT License, and the research team employed the DeepSeek tool to generate paraphrased variants of each question to detect the overfitting of LLMs to standard prompt formats.

提供机构：

本古里安大学, 特拉维夫大学

创建时间：

2025-02-11

搜集汇总

数据集介绍

构建方式

MMLU benchmark数据集构建方式是通过收集多选题，涵盖57个学科领域，包括STEM、人文和社会科学。这些题目被设计成具有广泛的覆盖面和公共可用性，使其成为评估通用知识和LLMs对标准提示格式的过度拟合的理想候选。为了探测过度拟合，研究者们生成了原始数据集的扰动版本，这些版本在保持原始语义意义和正确答案的同时，对问题进行了同义词替换、句子重排和插入干扰短语等文本修改。这些修改旨在破坏纯粹基于表面模式的记忆映射，从而揭示模型是否过度依赖表面级模式。

特点

MMLU benchmark数据集的特点在于其广泛的学科覆盖和公共可用性，使其成为评估LLMs通用知识和对标准提示格式的过度拟合的理想工具。数据集的构建旨在通过引入受控的文本变化，如同义词替换、句子重排和插入干扰短语，来测试LLMs对表面级模式的依赖程度。这种设计使得数据集能够揭示模型是否过度拟合于特定的提示格式，而不是表现出真正的语言理解能力。此外，MMLU benchmark数据集的广泛采用和全面的学科覆盖使其成为暴露LLMs对典型提示结构过度拟合的有效工具。

使用方法

使用MMLU benchmark数据集的方法包括首先获取数据集，然后对数据集中的问题进行扰动，以创建一个扰动后的数据集。接下来，使用LLM对原始和扰动后的数据集进行评估，并比较两种情况下的性能。通过分析性能差异，可以确定模型是否过度依赖特定的提示格式或表面级模式。此外，MMLU benchmark数据集的设计允许研究人员将其集成到训练流程中，以促进更稳健的语言理解。

背景与挑战

背景概述

MMLU benchmark 数据集是一套用于评估大型语言模型（LLM）在多任务语言理解方面的能力的数据集。该数据集由 Hendrycks 等人于 2020 年创建，旨在涵盖 57 个学科领域，包括科学、人文和社会科学等。MMLU benchmark 数据集已被广泛应用于 LLM 的评估中，是衡量 LLM 能力的一个重要标准。该数据集的创建为 NLP 领域的研究提供了重要的数据支持，促进了 LLM 的研究和开发。

当前挑战

尽管 MMLU benchmark 数据集在评估 LLM 方面具有重要作用，但其也存在一些挑战。首先，MMLU benchmark 数据集可能存在过拟合的问题。由于 MMLU benchmark 数据集的广泛使用，LLM 可能会过度依赖数据集的表面模式或特定结构，而不是真正理解语言。其次，MMLU benchmark 数据集的评估指标可能存在误导性。由于 LLM 可能会过度依赖数据集的表面模式，因此高得分并不一定代表 LLM 的真实能力。最后，MMLU benchmark 数据集可能无法完全反映 LLM 在实际应用中的表现。在实际应用中，LLM 需要面对各种不同的语言环境和任务，而 MMLU benchmark 数据集可能无法完全覆盖这些场景。

常用场景

经典使用场景

MMLU benchmark 作为一项用于评估大型语言模型（LLMs）的多任务语言理解基准，旨在测试模型在广泛的主题范围内回答多项选择题的能力。该数据集涵盖了包括科学、人文和社会科学在内的57个学科，为研究人员提供了一个全面的评估工具，用于衡量LLMs在处理不同类型知识和理解复杂概念方面的能力。MMLU benchmark 经常被用于比较不同 LLMs 的性能，以评估它们在现实世界应用中的潜在价值，尤其是在需要广泛知识背景的领域。

实际应用

MMLU benchmark 在实际应用场景中发挥着重要作用。首先，它为开发者和研究人员提供了一个基准，用于评估和比较不同 LLMs 的性能，从而帮助选择最合适的模型用于特定任务。其次，MMLU benchmark 的研究结果有助于改进 LLMs 的训练和微调过程，通过识别和减少过拟合现象，提高模型的泛化能力和鲁棒性。此外，MMLU benchmark 还为 LLMs 的实际应用提供了参考，例如在问答系统、智能助手和教育等领域，帮助用户更好地理解和利用 LLMs 的能力。

衍生相关工作

MMLU benchmark 衍生了许多相关的经典工作。例如，Chameleon Benchmark Overfit Detector (C-BOD) 是一个元评估框架，通过系统地扭曲基准提示并检测 LLMs 的过度拟合，揭示了模型是否过度依赖于数据集特定的表面提示。C-BOD 的研究结果挑战了社区对排行榜分数的过度依赖，并强调了在 LLM 评估中优先考虑鲁棒性和泛化能力的重要性。此外，MMLU benchmark 的研究也为 LLMs 的训练和微调过程提供了指导，帮助研究人员开发更具鲁棒性和泛化能力的模型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集