MMLU-CF

Name: MMLU-CF
Creator: 微软研究院
Published: 2024-12-20 02:58:04
License: 暂无描述

arXiv2024-12-20 更新2024-12-25 收录

下载链接：

https://huggingface.co/datasets/microsoft/MMLU-CF

下载链接

链接失效反馈

官方服务：

资源简介：

MMLU-CF是由微软研究院创建的一个无污染的多任务语言理解基准数据集，旨在评估大型语言模型（LLMs）的世界知识理解能力。该数据集包含20000个问题，分为10000个测试集和10000个验证集，涵盖14个领域，从2000亿份公开文档中筛选而来。数据集的创建过程包括多选题收集、清洗、难度采样、LLMs检查和无污染处理，确保数据集的多样性和高质量。MMLU-CF的应用领域主要是评估和提升LLMs在多任务环境下的表现，旨在解决现有基准数据集可能存在的数据泄露问题，提供一个更严格和可靠的评估标准。

MMLU-CF is a pollution-free multi-task language understanding benchmark dataset developed by Microsoft Research, designed to evaluate the world knowledge comprehension capabilities of large language models (LLMs). This dataset contains 20,000 questions, split into a 10,000-question test set and a 10,000-question validation set, covering 14 distinct domains, and is curated from 200 billion publicly available documents. The dataset construction pipeline encompasses multiple-choice question collection, data cleaning, difficulty sampling, LLM-based verification and pollution-free processing, which ensures the dataset's diversity and high quality. The primary applications of MMLU-CF lie in evaluating and enhancing the performance of LLMs in multi-task settings, with the goal of addressing potential data leakage issues in existing benchmark datasets and providing a more rigorous and reliable evaluation standard.

提供机构：

微软研究院

创建时间：

2024-12-20

搜集汇总

数据集介绍

构建方式

MMLU-CF数据集的构建过程经过精心设计，以确保其免受数据污染的干扰。首先，从超过2000亿份公开文档中提取了270万道选择题作为原始数据，涵盖了14个学科领域。随后，通过一系列过滤和清洗步骤，确保问题的格式和内容符合标准。接着，使用GPT-4对问题的难度进行分类，并从中筛选出难度适中的问题。为了进一步确保数据的质量和安全性，采用GPT-4、Gemini和Claude三种大语言模型对问题进行审查，确保其逻辑一致性、事实准确性和无害性。最后，通过三种去污染规则（问题重述、选项打乱、随机替换选项）对问题进行修改，以防止模型通过记忆答案来提高表现。最终构建了包含10,000道测试题和10,000道验证题的数据集，测试集保持闭源，验证集则公开以促进透明度和独立验证。

特点

MMLU-CF数据集具有显著的特点，使其成为一个更具挑战性和可靠性的评估基准。首先，数据集涵盖了广泛的学科领域，包括计算机科学、健康、历史等，确保了评估的全面性。其次，通过严格的去污染处理，数据集避免了无意和恶意的数据泄露，确保了评估结果的可靠性。此外，数据集的难度分布经过精心设计，主要集中在中等偏难的水平，能够更好地评估大语言模型的理解和推理能力。最后，测试集保持闭源，验证集公开，既保证了评估的公平性，又促进了透明度和独立验证。这些特点使得MMLU-CF成为一个更具挑战性和可信度的评估工具。

使用方法

MMLU-CF数据集的使用方法旨在确保评估的公平性和有效性。用户可以通过提交开源模型或API格式的评估请求，使用OpenCompass平台对模型进行测试。数据集支持5-shot和0-shot两种评估方式，分别用于衡量模型在有提示和无提示情况下的表现。测试集保持闭源，以防止恶意数据泄露，而验证集则公开，供用户进行独立验证和透明度检查。通过这种方式，用户可以在不暴露测试集的情况下，验证模型的泛化能力和鲁棒性。此外，数据集的去污染规则确保了评估结果不受模型记忆数据的影响，从而提供了更可靠的性能指标。

背景与挑战

背景概述

MMLU-CF（Massive Multitask Language Understanding Contamination-Free）是一个旨在评估大型语言模型（LLMs）多任务理解能力的无污染基准数据集。该数据集由微软研究院的Qihao Zhao等人于2024年提出，旨在解决现有基准数据集（如MMLU）中因数据泄露导致的评估结果不可靠问题。MMLU-CF通过从广泛的领域收集数据，并设计三种去污染规则，避免了无意和恶意的数据泄露。测试集保持闭源以确保评估结果的可靠性，而验证集则公开以促进透明度和独立验证。该数据集包含20,000个问题，涵盖14个学科，旨在更严格地评估LLMs的世界知识理解能力。

当前挑战

MMLU-CF面临的挑战主要包括两个方面。首先，在领域问题方面，该数据集旨在解决LLMs在多任务理解中的评估问题，尤其是避免因数据泄露导致的评估偏差。现有基准数据集（如MMLU）因开源性和LLMs的训练数据广泛性，容易导致模型在评估时表现出过高的性能，掩盖其真实能力。其次，在构建过程中，MMLU-CF面临数据去污染的挑战。为了确保数据的无污染性，研究团队设计了复杂的去污染规则，包括问题重述、选项重排和随机替换选项等步骤。这些步骤虽然有效减少了数据泄露的风险，但也增加了数据处理的复杂性和时间成本。此外，保持测试集的闭源性和验证集的公开性之间的平衡，也是确保数据集透明性和可靠性的关键挑战。

常用场景

经典使用场景

MMLU-CF数据集主要用于评估大型语言模型（LLMs）在多任务语言理解中的表现，特别是在避免数据污染的情况下。该数据集通过设计无污染的测试集和验证集，确保模型评估的公平性和可靠性。经典使用场景包括对模型在多个学科领域中的知识理解、推理能力以及问题解决能力进行全面测试。

实际应用

在实际应用中，MMLU-CF数据集被广泛用于评估和比较不同大型语言模型的性能，特别是在需要高可靠性和无污染评估的场景中。例如，企业可以使用该数据集来测试其开发的模型在多个学科领域中的表现，确保模型在实际应用中的泛化能力和鲁棒性。此外，该数据集还可用于模型优化和调优，帮助开发者识别模型的弱点并进行改进。

衍生相关工作

MMLU-CF数据集的推出催生了一系列相关研究工作，特别是在无污染评估领域。例如，研究者们基于该数据集开发了新的评估框架和方法，进一步提升了模型评估的透明度和可重复性。此外，该数据集还激发了更多关于如何防止数据泄漏和提升模型泛化能力的研究，推动了大型语言模型评估领域的持续发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集