mmlu-auxiliary-train-10-choices
收藏Hugging Face2025-06-15 更新2025-06-16 收录
下载链接:
https://huggingface.co/datasets/andresnowak/mmlu-auxiliary-train-10-choices
下载链接
链接失效反馈官方服务:
资源简介:
这是一个扩展版的MMLU(STEM部分)数据集,每个原始的四选项选择题都通过添加六个精心构造的干扰项扩展到了十个选项(A-J)。
This is an expanded version of the MMLU (STEM subset) dataset. Each original four-option multiple-choice question has been expanded to ten options (A-J) by adding six carefully crafted distractors.
创建时间:
2025-06-01
搜集汇总
数据集介绍

构建方式
该数据集基于MMLU辅助训练集的STEM部分进行扩展,通过GPT4o mini模型为每个原始四选项多选题精心构建了六个干扰项,形成十选项问题。构建过程中严格保留原始问题和前四个选项,新增选项需满足合理性、风格一致性及领域适切性等标准,采用特定温度参数和惩罚机制确保生成质量。
特点
作为增强版STEM学科评估数据集,其核心特征在于每个问题配备十个经过语言学优化的选项,其中六个干扰项通过大语言模型生成并保持错误合理性。数据集涵盖13,168道题目,扩展成功率达99.84%,所有选项均维持原始专业术语体系和逻辑复杂度,为模型鲁棒性测试提供更严苛的评估环境。
使用方法
该数据集适用于多选问答系统的对抗性训练与评估,使用者可通过HuggingFace接口直接加载train分割。典型应用场景包括:加载后解析question字段获取题干,choices字段包含十个有序选项,answer_10_choices字段提供正确答案索引。建议结合原始MMLU数据集进行对比实验,以评估模型在扩展选项空间下的性能变化。
背景与挑战
背景概述
MMLU-auxiliary-train-10-choices数据集是基于MMLU(Massive Multitask Language Understanding)辅助训练集的STEM部分扩展而来,由研究人员Dan Hendrycks等人于2021年创建。该数据集旨在通过增加干扰项来提升模型在复杂多任务语言理解中的表现,特别是在科学、技术、工程和数学领域的问答任务中。原始MMLU数据集因其广泛覆盖57个学科领域而成为评估语言模型多任务理解能力的重要基准。本扩展版本通过引入更多干扰项,进一步挑战模型在高度干扰环境下的准确性和鲁棒性。
当前挑战
该数据集面临的核心挑战在于如何生成既具有高度迷惑性又保持领域相关性的干扰项。在构建过程中,研究人员需确保新增的六个干扰项不仅语法和风格与原选项一致,还需在专业内容上保持足够的错误性以避免误导。此外,扩展后的十选项问题显著增加了模型的推理复杂度,对现有语言模型的抗干扰能力和精确判断提出了更高要求。数据集的构建还依赖于GPT4o mini生成干扰项,其生成质量的一致性及与人工标注的匹配度仍需进一步验证。
常用场景
经典使用场景
在自然语言处理领域,mmlu-auxiliary-train-10-choices数据集通过扩展原始MMLU数据集的选项数量,为研究者提供了一个更为复杂的多选问答评估平台。该数据集特别适用于测试和提升模型在STEM领域的知识理解和推理能力,尤其是在面对更多干扰项时的表现。经典使用场景包括模型的多选问答能力评估、干扰项抗干扰能力测试以及模型在复杂选项环境下的决策能力分析。
实际应用
在实际应用中,mmlu-auxiliary-train-10-choices数据集可用于教育科技领域,如智能辅导系统的开发,帮助系统更好地处理学生可能提出的各种干扰选项。此外,该数据集还可用于构建更强大的搜索引擎和问答系统,提升这些系统在提供准确答案时的抗干扰能力,从而改善用户体验。
衍生相关工作
基于该数据集,研究者们已经开展了一系列相关工作,包括开发新型的抗干扰训练方法、设计更复杂的评估指标以及探索模型在扩展选项下的行为模式。这些工作不仅推动了多选问答任务的进步,也为理解模型在复杂决策环境下的行为提供了新的视角。
以上内容由遇见数据集搜集并总结生成



