MMLU-CF
收藏github2024-12-20 更新2024-12-21 收录
下载链接:
https://github.com/microsoft/MMLU-CF
下载链接
链接失效反馈官方服务:
资源简介:
MMLU-CF是一个无污染且更具挑战性的多选题基准,包含验证集和测试集各10K个问题,涵盖多种学科。该数据集旨在解决现有基准中的数据污染问题,确保评估结果的可靠性。
MMLU-CF is a pollution-free and more challenging multiple-choice benchmark, which includes 10,000 questions respectively for the validation and test sets, covering a diverse range of academic disciplines. This dataset is designed to address the data contamination issue in existing benchmarks, ensuring the reliability of evaluation results.
创建时间:
2024-12-03
原始信息汇总
MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark
数据集概述
MMLU-CF 是一个无污染的多任务语言理解基准测试数据集,旨在解决现有基准测试中由于数据污染导致评估结果不可靠的问题。该数据集包含 10,000 个验证集问题和 10,000 个测试集问题,涵盖多个学科领域。
数据集特点
- 无污染设计:通过三项去污染规则,确保数据集的纯净性,避免数据泄露。
- 多任务覆盖:数据集涵盖多个学科领域,提供多样化的语言理解任务。
- 闭源测试集:测试集保持闭源,防止恶意数据泄露。
数据集结构
- 验证集:10,000 个问题,开放源代码。
- 测试集:10,000 个问题,闭源。
数据集构建流程
- MCQ 收集:收集多样化的多选题。
- MCQ 清洗:确保问题质量。
- 难度采样:确保问题难度的适当分布。
- LLMs 检查:使用 GPT-4o、Gemini 和 Claude 等模型检查数据的准确性和安全性。
- 无污染处理:防止数据泄露,保持数据集的纯净性。
模型评估
- 验证集评估:使用 LLM 评估工具 OpenCompass 获取验证集结果。
- 测试集评估:通过提交 GitHub Issue 请求测试集结果。
数据集与 MMLU 的区别
- MMLU 专注于广度和推理,未考虑污染预防。
- MMLU-CF 通过去污染规则和闭源测试集,确保评估结果的可靠性。
排行榜
| 模型 | MMLU 5-shot | MMLU-CF 5-shot Test | MMLU-CF 5-shot Validation | MMLU-CF 5-shot Δ | MMLU-CF 0-shot Test | MMLU-CF 0-shot Validation | MMLU-CF 0-shot Δ |
|---|---|---|---|---|---|---|---|
| GPT-4o | 88.0 | 73.4 | 73.4 | +0.0 | 71.9 | 72.4 | -0.5 |
| GPT-4-Turbo | 86.5 | 70.4 | 70.1 | +0.3 | 68.9 | 68.7 | +0.1 |
| GPT-4o-mini | 81.8 | 65.5 | 65.1 | +0.4 | 66.0 | 65.3 | +0.7 |
| Gemini-1.5-Flash | 78.7 | 64.8 | 64.9 | -0.1 | 56.7 | 56.9 | -0.2 |
| GPT-3.5-Turbo | 71.4 | 58.2 | 59.0 | -0.8 | 57.2 | 58.1 | -0.9 |
| Qwen2.5-72B-instruct | 85.3 | 71.6 | 71.3 | +0.3 | 70.6 | 70.4 | +0.2 |
| Llama-3-70B-instruct | 82.0 | 68.9 | 68.8 | +0.1 | 68.1 | 67.4 | +0.7 |
| Llama-3.3-70B-instruct | 86.3 | 68.8 | 67.8 | +1.0 | 67.6 | 67.5 | +0.1 |
| Llama-3.1-70B-instruct | 86.0 | 68.7 | 68.1 | +0.6 | 70.4 | 69.7 | +0.7 |
| Phi-3.5-MoE-instruct | 78.9 | 64.6 | 64.5 | +0.1 | 63.1 | 62.1 | +1.0 |
| Qwen2-72B-instruct | 82.3 | 63.7 | 64.3 | -0.6 | 62.4 | 62.5 | -0.1 |
| Mixtral-8x22B-instruct | 76.2 | 62.8 | 62.5 | +0.3 | 65.3 | 64.8 | +0.5 |
| Qwen1.5-72B-chat | 75.6 | 59.8 | 60.2 | -0.4 | 59.1 | 59.6 | -0.5 |
| Llama-2-70B-chat | 68.9 | 52.2 | 51.8 | +0.4 | 51.2 | 50.9 | +0.3 |
| Qwen2.5-32B-instruct | 83.9 | 69.7 | 68.8 | +0.9 | 68.9 | 68.8 | +0.1 |
| Phi-4-14B | 84.8 | 67.8 | 68.5 | -0.7 | 68.5 | 69.4 | -0.9 |
| Qwen2.5-14B-instruct | 79.9 | 66.4 | 66.1 | +0.3 | 67.0 | 66.0 | +1.0 |
| Phi-3-medium-instruct | 77.9 | 64.2 | 64.2 | +0.0 | 62.5 | 62.7 | -0.2 |
| Gemma2-27B | 75.2 | 63.9 | 63.5 | +0.4 | 64.2 | 64.0 | +0.2 |
| Yi-1.5-34B-chat | 76.8 | 61.3 | 60.5 | +0.8 | 60.6 | 59.5 | +1.1 |
| Mixtral-8x7B-instruct-v0.1 | 70.5 | 58.3 | 57.1 | -1.2 | 58.9 | 58.5 | +0.4 |
| Deepseek-v2-lite-chat | 55.7 | 49.3 | 48.7 | +0.6 | 48.2 | 47.7 | +0.5 |
| Baichuan-2-13B-chat | 57.3 | 48.3 | 48.6 | -0.3 | 47.1 | 48.1 | -1.0 |
| Llama-2-13B-chat | 54.8 | 42.8 | 42.1 | +0.7 | 44.8 | 44.6 | +0.2 |
| Qwen2.5-7B-instruct | 75.4 | 61.3 | 60.4 | +0.9 | 59.3 | 58.6 | +0.7 |
| Qwen2-7B-instruct | 70.5 | 58.1 | 57.9 | +0.2 | 58.3 | 57.4 | +0.9 |
| Glm-4-9B-chat | 72.4 | 57.8 | 57.9 | -0.1 | 58.6 | 58.7 | -0.1 |
| Internlm-2.5-7B-chat | 72.8 | 57.3 | 56.8 | +0.5 | 57.9 | 56.9 | +1.0 |
| Llama-3-8B-instruct | 68.4 | 57.3 | 56.5 | +0.8 | 56.4 | 55.4 | +1.0 |
| Llama-3.1-8B-instruct | 68.1 | 57.1 | 57.9 | -0.8 | 56.1 | 56.1 | +0.0 |
| Gemma-2-9B | 71.3 | 53.7 | 53.3 | +0.4 | 32.1 | 31.2 | +0.9 |
| Yi-1.5-6B-chat | 62.8 | 52.8 | 51.4 | +1.4 | 52.2 | 51.9 | +0.3 |
| Mistral-7B-instruct-v0.3 | 60.3 | 50.7 | 50.9 | -0.2 | 51.1 | 50.9 | +0.2 |
| Baichuan-2-7B-chat | 52.9 | 44.5 | 43.9 | +0.6 | 43.9 | 44.0 | -0.1 |
| Llama-2-7B-chat | 45.3 | 39.4 | 38.5 | +0.9 | 41.9 | 40.9 | +1.0 |
| Phi-3-mini-instruct (3.8B) | 70.9 | 57.9 | 58.1 | -0.2 | 58.2 | 57.5 | +0.7 |
| Phi-3.5-mini-instruct (3.8B) | 69.1 | 57.9 | 57.4 | +0.5 | 58.3 | 57.7 | +0.6 |
| Qwen2.5-3B-instruct | 64.4 | 55.9 | 56.4 | -0.5 | 54.3 | 53.9 | +0.4 |
| Qwen2.5-1.5B-instruct | 50.7 | 51.2 | 51.0 | +0.2 | 50.7 | 50.4 | +0.3 |
| Qwen2-1.5B-instruct | 52.4 | 47.1 | 47.5 | -0.4 | 45.2 | 44.5 | +0.7 |
| Gemma-2-2B | 51.3 | 43.9 | 42.4 | +1.5 | 30.5 | 29.4 | +0.9 |
| Qwen2.5-0.5B-instruct | 24.1 | 41.9 | 41.1 | +0.8 | 36.0 | 34.9 | +1.1 |
| Internlm-2-chat-1.8b | 47.1 | 40.5 | 39.4 | +1.1 | 41.2 | 39.8 | +1.4 |
| Qwen2-0.5B-instruct | 37.9 | 38.3 | 38.3 | +0.0 | 33.5 | 33.5 | +0.0 |
许可证
- 代码许可证:MIT
- 验证数据集许可证:CDLA-2.0
搜集汇总
数据集介绍

构建方式
MMLU-CF数据集的构建过程严谨且系统,旨在确保数据的无污染性。首先,通过多选题(MCQ)收集阶段,广泛汇集了涵盖多个学科的多样化问题。随后,进行MCQ清洗步骤,以保证数据的质量和准确性。紧接着,通过难度采样,确保问题难度的合理分布,以适应不同层次的测试需求。此外,利用GPT-4o、Gemini等大型语言模型对数据进行审查,确保其准确性和安全性。最后,通过污染预防处理,确保数据集的纯净性,避免数据泄露。最终,形成了包含10,000个问题的封闭测试集和10,000个问题的开放验证集。
使用方法
使用MMLU-CF数据集进行模型评估时,首先需通过OpenCompass工具对模型进行验证集的评估,获取验证结果。随后,用户需在MMLU-CF的GitHub页面上提交一个GitHub Issue,请求测试集的评估结果。提交时需遵循特定的格式,包括模型名称和验证集结果。对于API模型,若OpenCompass更新了模型接口,用户可通过发送临时密钥至指定邮箱获取测试集结果。整个评估过程自动化程度高,通常在1-2周内可获得测试集的评估结果。
背景与挑战
背景概述
MMLU-CF(Multi-task Language Understanding Benchmark without Contamination)是由微软研究院于2024年推出的一个无污染多任务语言理解基准数据集。该数据集的核心研究问题在于解决现有语言模型评估中因数据污染导致的评估结果不可靠问题。MMLU-CF通过引入三项去污染规则,确保测试集的封闭性,从而避免了数据泄露和模型记忆现象。该数据集涵盖了10,000个验证问题和10,000个测试问题,涉及多个学科领域,旨在为语言模型的多任务理解能力提供更为公正和准确的评估。
当前挑战
MMLU-CF的主要挑战在于如何有效防止数据污染和模型记忆现象。构建过程中,研究人员面临了多个具体挑战:首先,如何从广泛的数据源中筛选出无污染的多项选择题,确保数据集的纯净性;其次,如何设计合理的难度分布,使得数据集能够全面评估模型的语言理解能力;最后,如何通过自动化测试工具和人工审核相结合的方式,确保数据集的质量和安全性。此外,MMLU-CF的封闭测试集设计也增加了模型评估的复杂性,要求研究人员在评估过程中严格遵循去污染规则,以确保评估结果的可靠性。
常用场景
经典使用场景
MMLU-CF数据集的经典使用场景主要集中在多任务语言理解模型的评估与验证。该数据集通过提供无污染的多项选择题,帮助研究者评估大型语言模型(LLMs)在不同学科领域的理解能力。研究者可以利用MMLU-CF的验证集和测试集,通过自动化测试工具如OpenCompass,对模型进行严格的性能评估,从而确保模型在实际应用中的可靠性和准确性。
解决学术问题
MMLU-CF数据集解决了大型语言模型在评估过程中常见的数据污染问题。传统的评估基准由于训练数据与测试数据的潜在重叠,导致评估结果不可靠。MMLU-CF通过引入无污染的测试集,有效避免了模型通过记忆训练数据来提高测试表现的现象,从而为学术界提供了一个更为公正和准确的评估工具,推动了语言模型研究的进一步发展。
实际应用
在实际应用中,MMLU-CF数据集为语言模型的开发和优化提供了重要的参考依据。通过该数据集的评估,开发者可以识别模型在不同学科领域的弱点,并进行针对性的改进。此外,MMLU-CF的评估结果也为企业决策提供了数据支持,帮助其在选择和部署语言模型时做出更为明智的选择,从而提升产品和服务的智能化水平。
数据集最近研究
最新研究方向
在自然语言处理领域,MMLU-CF数据集的最新研究方向主要集中在解决大规模语言模型(LLMs)在评估中的数据污染问题。随着LLMs的广泛应用,传统的评估基准如MMLU因训练数据与测试数据的重叠,导致评估结果的可靠性受到质疑。MMLU-CF通过引入无污染的多任务语言理解基准,有效避免了这一问题,确保了模型评估的公正性和准确性。该数据集的推出不仅推动了LLMs在多学科领域的深入评估,还为未来模型开发和优化提供了更为可靠的测试平台。
以上内容由遇见数据集搜集并总结生成



