MMLU and BIG-Bench

github2024-06-06 更新2024-06-08 收录

下载链接：

https://github.com/yingjiahao14/Automating-DatasetUpdates

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集用于自动化更新大型语言模型评估的基准数据集，通过模仿和扩展策略生成新的数据样本，以保持评估的可靠性和时效性。

This dataset is designed for the automated updating of benchmark datasets used in the evaluation of large language models. It employs imitation and expansion strategies to generate new data samples, ensuring the reliability and timeliness of the evaluations.

创建时间：

2024-05-19

原始信息汇总

数据集概述

数据实例 - 模仿数据集

更新策略: 使用模仿策略对MMLU中的代数部分进行更新，共涉及10个任务。
任务详情: 包括任务信息、问题格式及认知水平，详情见数据集中的表格。
验证方法: 采用“模型自我检查”和“程序检查”两种方法进行验证。
样本示例: 保持与原始样本（种子样本）相同的格式，例如： json { "question": "Determine the degree for the provided field extension Q(sqrt(5), sqrt(7), sqrt(35)) over Q.", "A": "8", "B": "0", "C": "2", "D": "4", "answer": "D" }
数据存储位置: 模仿数据集存储于data/mimic。

数据统计 - 模仿数据集

统计信息: 详细统计信息见数据集中的表格。

数据实例 - 扩展数据集

更新策略: 使用扩展策略，选择体育、算法、代数和物理四个领域的数据集进行扩展。
样本示例: 包括扩展问题、参考答案、流行度和认知水平，例如： json { "popularity": 213, "question": "Provide a formal definition of the tensor product of two modules over a ring, including the universal property it satisfies.", "ref_answer": "The tensor product of two modules M and N over a ring R, denoted by M ⊗R N, is a module T along with a bilinear map φ: M × N → T such that for every bilinear map f: M × N → P, where P is any R-module, there exists a unique linear map F: T → P such that F o φ = f. This is known as the universal property of the tensor product.", "level": "remember" }
数据存储位置: 扩展数据集存储于data/extend。

数据统计 - 扩展数据集

统计信息: 详细统计信息见数据集中的表格。

评估

评估脚本: 提供针对OpenAI模型的评估脚本。
使用说明: 使用时需在脚本中设置API密钥，并通过命令行运行评估脚本。

搜集汇总

数据集介绍

构建方式

在构建MMLU和BIG-Bench数据集时，研究团队采用了两种策略：模仿策略和扩展策略。模仿策略通过生成与原始数据相似的样本，保留了风格和上下文的本质。扩展策略则通过适应布鲁姆的教育目标分类法，在不同认知层次上扩展现有样本。这两种策略旨在解决基准泄露问题、控制难度并确保稳定性。具体实施中，团队从MMLU和BIG-Bench中选择了特定的任务进行更新，并通过模型自我检查和程序检查来验证新样本的准确性。

特点

MMLU和BIG-Bench数据集的主要特点在于其自动化更新机制和多层次的认知难度控制。通过模仿和扩展策略，数据集能够及时更新，以应对大型语言模型（LLMs）的快速发展。此外，数据集中的样本格式与原始数据保持一致，确保了数据的一致性和可比性。数据集还包含了详细的任务信息、问题格式和相应的认知水平，为模型评估提供了丰富的背景信息。

使用方法

使用MMLU和BIG-Bench数据集时，用户可以通过提供的评估脚本对OpenAI模型进行评估。首先，用户需要在脚本中添加自己的API密钥，然后运行相应的命令来启动模型评估。数据集的样本存储在`data/mimic`和`data/extend`目录中，用户可以根据需要选择不同策略生成的数据进行测试。此外，数据集还提供了一个演示排行榜，用户可以在其中查看更多样本和提示信息，以更好地理解和使用数据集。

背景与挑战

背景概述

MMLU和BIG-Bench数据集是针对大规模语言模型（LLMs）评估而设计的，由研究人员在2024年提出，旨在解决现有基准数据集更新不及时和泄露问题。这些数据集的核心研究问题是如何自动化更新数据集，以确保评估的可靠性和时效性。主要研究人员通过提出两种更新策略——模仿策略和扩展策略，来生成新的样本，从而保持数据集的难度和稳定性。这些策略的应用不仅提升了数据集的质量，还为LLMs的评估提供了更为精细的分析工具，对自然语言处理领域具有重要影响。

当前挑战

MMLU和BIG-Bench数据集面临的挑战主要包括两个方面：一是如何有效解决基准数据集的泄露问题，确保评估的公正性；二是如何在保持数据集难度的同时，控制其复杂度，避免过于简单或过于困难的问题影响模型的真实性能评估。此外，数据集的构建过程中还涉及到样本生成的一致性、认知层次的准确标注以及验证方法的有效性等问题，这些都需要在数据集的更新和维护中持续关注和解决。

常用场景

经典使用场景

MMLU和BIG-Bench数据集的经典使用场景主要集中在对大型语言模型（LLMs）的性能评估和更新上。通过自动化数据集更新策略，如模仿策略和扩展策略，这些数据集能够持续提供具有挑战性的任务，以确保模型在面对不断变化的基准时仍能保持其性能的准确性和可靠性。具体而言，模仿策略通过生成与原始数据相似的样本，保留了风格和上下文的本质，而扩展策略则通过调整Bloom的教育目标分类法，进一步扩展现有样本的认知层次。

衍生相关工作

MMLU和BIG-Bench数据集的提出和应用催生了一系列相关研究工作。例如，基于这些数据集的自动化更新策略，研究者们开发了多种模型自我检查和程序检查方法，以确保生成样本的准确性和可靠性。此外，这些数据集还促进了关于如何有效控制和调整任务难度的研究，推动了教育目标分类法在NLP任务中的应用。这些衍生工作不仅丰富了数据集的应用场景，也为相关领域的研究提供了新的思路和方法。

数据集最近研究