mmlu-pro-setting2H_0M_choices_only_exp3-gpt

Hugging Face2025-08-18 更新2025-08-19 收录

下载链接：

https://huggingface.co/datasets/atreydesai/mmlu-pro-setting2H_0M_choices_only_exp3-gpt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了问题、答案和多种选项，其中选项包括人类提供的答案、合成条件下的答案等。数据集还包含了预测结果、完整的提问、模型输出和概率分布等信息。数据集分为训练集，共有250个示例，文件大小为563196字节。

创建时间：

2025-08-07

原始信息汇总

数据集概述

基本信息

数据集名称: mmlu-pro-setting2H_0M_choices_only_exp3-gpt
数据集大小: 563196字节
下载大小: 300398字节
训练集样本数: 250

数据集特征

question: 字符串类型，表示问题。
choices_answer: 字符串序列，表示答案选项。
choices_human: 字符串序列，表示人类生成的选项。
choices_synthetic_conditioned_goldandstem: 字符串序列，表示合成条件下生成的选项。
options: 字符串序列，表示选项。
answer: 字符串类型，表示答案。
answer_assembled: 字符串类型，表示组装后的答案。
assembled_options: 字符串序列，表示组装后的选项。
pred: 字符串类型，表示预测结果。
full_question: 字符串类型，表示完整的问题。
model_outputs: 字符串类型，表示模型输出。
probability_distribution: 结构体类型，包含A、B、C三个字段，均为float64类型。
choices_answer_prob: float64类型，表示答案选项的概率。
choices_human_prob: float64类型，表示人类生成选项的概率。
choices_synthetic_conditioned_goldandstem_prob: float64类型，表示合成条件下生成选项的概率。
group_averages: float64序列，表示组平均值。
logprobs_available: 布尔类型，表示是否可用对数概率。

数据集配置

默认配置:
- 训练集路径: data/train-*

搜集汇总

数据集介绍

构建方式

在知识评估领域，mmlu-pro-setting2H_0M_choices_only_exp3-gpt数据集通过精心设计的实验框架构建而成。研究团队采用多阶段数据采集策略，首先收集原始问题及标准答案，随后通过条件化生成技术合成具有不同特征的选项组合。每个样本包含人类编写选项与模型生成选项的对比组，并完整保留了语言模型的概率输出分布，这种构建方式为研究选项表述对模型决策的影响提供了可靠数据基础。

特点

该数据集最显著的特征在于其多维度的选项对比体系。每个问题不仅提供标准选项和人工编写选项，还包含基于黄金标准生成的合成选项，形成三组对照实验条件。独特的概率分布结构字段完整记录了模型对各选项的置信度评分，配合组间平均值和对数概率可用性标记，为分析语言模型的决策机制提供了前所未有的细粒度数据支持。

使用方法

研究人员可通过该数据集开展多项前沿研究，包括但不限于选项表述对模型性能的影响分析、人类与合成选项的判别研究以及模型决策可解释性探索。使用时应重点关注choices_answer、choices_human和choices_synthetic_conditioned_goldandstem三个关键字段的对比分析，结合probability_distribution结构中的概率值，可深入挖掘不同选项表述方式下模型的认知偏差特征。

背景与挑战

背景概述

mmlu-pro-setting2H_0M_choices_only_exp3-gpt数据集是近年来在自然语言处理领域兴起的一项重要资源，专注于多任务语言理解与生成模型的评估。该数据集由前沿研究团队构建，旨在探索大型语言模型在复杂问答场景中的表现，特别是在选项生成与答案预测方面的能力。数据集的设计融合了人类标注与合成生成的双重特性，为研究者提供了丰富的对比维度，推动了模型可解释性与决策过程透明度的研究进展。其多模态特征结构和概率分布标注方式，已成为评估生成式AI系统认知能力的新基准。

当前挑战

该数据集面临的核心挑战体现在两个层面：在领域问题层面，如何准确评估模型对语义相似选项的区分能力成为关键难题，特别是当人工编写选项与机器生成选项并存时，传统评估指标往往失效；在构建技术层面，保持人类标注与合成数据间的平衡性极具挑战，需要设计复杂的质量控制机制来确保选项语义的多样性和合理性。同时，概率分布标注的精确性要求开发新型的验证方法，这对数据集的可信度提出了更高标准。

常用场景

经典使用场景

在自然语言处理领域，mmlu-pro-setting2H_0M_choices_only_exp3-gpt数据集被广泛用于评估和比较不同模型在多选题解答任务上的性能。该数据集通过提供丰富的问答对和选项组合，为研究人员提供了一个标准化的测试平台，用于验证模型在复杂语境下的推理能力和知识掌握程度。

衍生相关工作

基于该数据集，研究者们开展了多项关于多选题生成与解答的经典工作。这些研究不仅探索了不同神经网络架构在复杂选择题任务上的表现，还衍生出了新的评估指标和方法，为自然语言处理领域的进步做出了重要贡献。

数据集最近研究