mmlu-pro-setting0H_1M_choices_only_exp4-gpt

Hugging Face2025-08-18 更新2025-08-19 收录

下载链接：

https://huggingface.co/datasets/atreydesai/mmlu-pro-setting0H_1M_choices_only_exp4-gpt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含问题、选项、人类作答、合成条件下的金标准和词干选项、选项列表、答案、组装答案、组装选项、预测结果、完整问题、模型输出、概率分布、各选项的概率、组平均值和是否提供对数概率等信息。数据集分为训练集，大小为526139字节，共有250个样本。数据集下载大小为286301字节，整个数据集大小为526139字节。

创建时间：

2025-08-07

原始信息汇总

数据集概述

基本信息

数据集名称: mmlu-pro-setting0H_1M_choices_only_exp4-gpt
存储位置: https://huggingface.co/datasets/atreydesai/mmlu-pro-setting0H_1M_choices_only_exp4-gpt
下载大小: 286301字节
数据集大小: 526139字节
训练集样本数: 250

数据特征

question: 字符串类型，表示问题。
choices_answer: 字符串序列，表示答案选项。
choices_human: 字符串序列，表示人类生成的选项。
choices_synthetic_conditioned_goldandstem: 字符串序列，表示合成生成的选项。
options: 字符串序列，表示选项。
answer: 字符串类型，表示答案。
answer_assembled: 字符串类型，表示组装后的答案。
assembled_options: 字符串序列，表示组装后的选项。
pred: 字符串类型，表示预测结果。
full_question: 字符串类型，表示完整的问题。
model_outputs: 字符串类型，表示模型输出。
probability_distribution: 结构体类型，包含A和B两个字段，均为float64类型。
choices_answer_prob: float64类型，表示答案选项的概率。
choices_human_prob: float64类型，表示人类生成选项的概率。
choices_synthetic_conditioned_goldandstem_prob: float64类型，表示合成生成选项的概率。
group_averages: float64序列，表示组平均值。
logprobs_available: 布尔类型，表示是否可用对数概率。

数据划分

训练集: 包含250个样本，大小为526139字节。

搜集汇总

数据集介绍

构建方式

在知识评估领域，mmlu-pro-setting0H_1M_choices_only_exp4-gpt数据集采用多模态构建策略，通过整合人工标注与合成数据生成技术形成基准测试集。其核心构建过程涉及对原始问题的语义解析，采用条件化生成模型产生具有黄金标注和词干特征的合成选项，同时保留人工构造选项作为对比参照。数据工程师通过概率分布建模确保每个问题选项组合的统计合理性，并采用结构化特征存储方式记录模型输出的完整决策轨迹。

特点

该数据集显著特征体现在其多维度的选项生成体系，同时包含人工构造选项、合成条件选项及概率标注的三重验证机制。每个样本不仅提供标准答案标注，还附带模型预测结果及其对应的概率分布，使得研究者能深入分析模型决策的不确定性。特征工程方面创新性地引入组平均分数和对数概率可用性标记，为模型能力评估提供细粒度分析维度。结构化字段设计实现了问题题干、选项序列与预测结果的完整对应关系。

使用方法

研究者可通过加载标准数据分割直接获取训练集，其中每个样本包含完整的问答元数据。典型使用场景包括：基于probability_distribution字段进行模型校准分析，通过对比choices_human与choices_synthetic_conditioned_goldandstem研究不同选项生成策略的影响，或利用answer_assembled验证模型的多跳推理能力。对于概率建模任务，logprobs_available标记可筛选出适合概率估计的样本子集。

背景与挑战

背景概述

mmlu-pro-setting0H_1M_choices_only_exp4-gpt数据集是近年来在自然语言处理领域兴起的一项重要资源，专注于多选问答任务的模型性能评估。该数据集由前沿研究团队构建，旨在探索大型语言模型在复杂知识推理任务中的表现。其核心研究问题聚焦于模型对多选问题的理解能力、选项干扰项的鲁棒性以及概率分布的合理性评估。作为MMLU（Massive Multitask Language Understanding）基准的衍生版本，该数据集通过引入合成条件选项和人类编写选项的对比，为模型可解释性研究提供了新的维度，对推动语言模型的认知能力评估具有重要意义。

当前挑战

该数据集面临的挑战主要体现在两个层面：在领域问题层面，多选问答任务要求模型具备细粒度的知识理解和选项对比能力，如何准确捕捉干扰项与正确答案之间的微妙差异成为关键难题；在构建过程层面，合成选项的生成需要平衡语义相关性和干扰强度，人类编写选项则需保证专业性和多样性，二者的概率分布对齐对评估指标的设计提出了更高要求。同时，模型输出的概率校准与真实人类判断之间的一致性验证，也是数据集质量控制的难点所在。

常用场景

经典使用场景

在自然语言处理领域，mmlu-pro-setting0H_1M_choices_only_exp4-gpt数据集为研究者提供了一个多模态语言理解的基准测试平台。该数据集通过精心设计的问答对和选项组合，能够有效评估模型在复杂语境下的推理能力和知识覆盖范围。经典使用场景包括模型预训练效果的验证、零样本或少样本学习性能的测试，以及不同生成策略的对比实验。

数据集最近研究