mmlu-pro-setting3H_2M_choices_only_exp1-gpt

Hugging Face2025-08-18 更新2025-08-19 收录

下载链接：

https://huggingface.co/datasets/atreydesai/mmlu-pro-setting3H_2M_choices_only_exp1-gpt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了问题、选项和答案等多个字段，适用于机器学习模型的训练。数据集分为训练集，其中包含了250个示例，文件大小为659,844字节。数据集还提供了不同配置下的数据文件路径。

创建时间：

2025-08-07

原始信息汇总

数据集概述

基本信息

数据集名称: mmlu-pro-setting3H_2M_choices_only_exp1-gpt
来源平台: Hugging Face Datasets
存储位置: https://huggingface.co/datasets/atreydesai/mmlu-pro-setting3H_2M_choices_only_exp1-gpt
数据量: 250个样本
数据集大小: 659,844字节
下载大小: 349,083字节

数据结构

特征字段

question: 字符串类型，表示问题
choices_answer: 字符串序列，表示答案选项
choices_human: 字符串序列，表示人工生成的选项
choices_synthetic_conditioned_goldandstem: 字符串序列，表示基于黄金标准和词干的条件合成选项
options: 字符串序列，表示选项
answer: 字符串类型，表示答案
answer_assembled: 字符串类型，表示组装后的答案
assembled_options: 字符串序列，表示组装后的选项
pred: 字符串类型，表示预测结果
full_question: 字符串类型，表示完整问题
model_outputs: 字符串类型，表示模型输出
probability_distribution: 结构体类型，包含A-F六个选项的概率值（float64）
choices_answer_prob: float64类型，表示答案选项的概率
choices_human_prob: float64类型，表示人工选项的概率
choices_synthetic_conditioned_goldandstem_prob: float64类型，表示条件合成选项的概率
group_averages: float64序列，表示组平均值
logprobs_available: 布尔类型，表示对数概率是否可用

数据划分

训练集: 250个样本，659,844字节

配置信息

默认配置: 使用train分割的数据文件，路径为data/train-*

搜集汇总

数据集介绍

构建方式

在人工智能与教育测评交叉领域，mmlu-pro-setting3H_2M_choices_only_exp1-gpt数据集基于MMLU-Pro框架构建，通过结构化采样和多阶段标注流程形成。原始问题经过专家验证后，采用条件生成技术合成干扰项，并整合人类标注与模型生成的双源选项。每个样本包含概率分布矩阵和组别平均分数，确保了数据在逻辑一致性和统计可靠性间的平衡。

使用方法

研究者可借助该数据集开展多项研究：通过对比choices_human与choices_synthetic字段分析生成选项的合理性，利用probability_distribution进行模型置信度校准实验，或结合group_averages实现群体性能评估。机器学习流程中，可将assembled_options与pred字段作为监督信号，而logprobs_available标志位则为概率建模提供验证基础。

背景与挑战

背景概述

大规模多任务语言理解评估数据集MMLU自2020年由Hendrycks等人提出以来，已成为衡量人工智能模型跨学科知识掌握程度的重要基准。该数据集涵盖STEM、人文社科等57个学科领域的多项选择题，旨在全面检验模型的知识广度与推理深度。mmlu-pro-setting3H_2M_choices_only_exp1-gpt作为其衍生版本，通过集成人类标注与合成数据生成技术，进一步拓展了原始数据集的评估维度，为研究语言模型在复杂决策场景中的概率校准机制提供了新型实验范本。

当前挑战

该数据集核心挑战在于解决多项选择题中选项语义混淆与干扰项辨识难题，特别是在合成数据与人类标注数据并存条件下保持评估一致性。构建过程中需克服多源数据融合的技术壁垒，确保合成选项与原始选项在分布逻辑上的连贯性，同时维持概率分布矩阵与真实答案间的映射精度。此外，如何平衡人类先验知识与模型生成内容之间的表征差异，避免评估偏差向合成数据倾斜，亦是构建阶段的关键难点。

常用场景

经典使用场景

在机器学习与自然语言处理领域，mmlu-pro-setting3H_2M_choices_only_exp1-gpt数据集被广泛用于评估和优化生成式预训练模型的多选题解答能力。该数据集通过结构化的问题与选项设计，为研究者提供了标准化的测试环境，用以检验模型在复杂知识推理任务中的表现。其经典应用场景包括模型泛化能力测试、知识检索效率分析以及答案生成机制的深入研究，为高级语言模型的性能提升奠定了数据基础。

解决学术问题

该数据集有效解决了生成式模型在结构化选择题解答中的一致性与可靠性问题，为学术研究提供了可量化的评估基准。通过整合人类标注与合成生成的多模态选项，它助力研究者识别模型的知识盲点与推理偏差，推动了可解释人工智能的发展。其在概率分布与答案组装机制上的创新设计，为模型决策透明化与不确定性量化研究提供了关键支持，对促进人工智能的稳健性与可信度具有重要意义。

实际应用

在实际应用中，该数据集为教育科技、智能问答系统及自动化评估工具的开发提供了核心训练资源。其丰富的选项组合与概率分布数据可用于构建自适应学习平台，精准诊断用户知识掌握程度；在医疗、法律等专业领域，它支持开发高精度决策辅助系统，通过模拟多选项推理场景提升模型的实用性与可靠性，为行业智能化转型提供技术支撑。

数据集最近研究