mmlu-pro-setting0H_2M_choices_only_exp4-gpt

Hugging Face2025-08-18 更新2025-08-19 收录

下载链接：

https://huggingface.co/datasets/atreydesai/mmlu-pro-setting0H_2M_choices_only_exp4-gpt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了一系列问题及其相关选项、答案等信息。具体字段包括问题文本、选项答案、人工选项、合成条件下的金标准与词干选项、选项列表、答案文本、组装答案、组装选项、预测答案、完整问题、模型输出、概率分布、各选项答案的概率、组平均值以及是否提供对数概率等。数据集分为训练集，共有250个示例，文件大小为556778字节。

创建时间：

2025-08-07

原始信息汇总

数据集概述

基本信息

数据集名称: mmlu-pro-setting0H_2M_choices_only_exp4-gpt
下载大小: 301550字节
数据集大小: 556778字节
训练集样本数: 250

数据特征

question: 字符串类型，表示问题。
choices_answer: 字符串序列，表示答案选项。
choices_human: 字符串序列，表示人工生成的选项。
choices_synthetic_conditioned_goldandstem: 字符串序列，表示合成生成的选项。
options: 字符串序列，表示选项。
answer: 字符串类型，表示答案。
answer_assembled: 字符串类型，表示组装后的答案。
assembled_options: 字符串序列，表示组装后的选项。
pred: 字符串类型，表示预测结果。
full_question: 字符串类型，表示完整的问题。
model_outputs: 字符串类型，表示模型输出。
probability_distribution: 结构体类型，包含A、B、C三个字段，均为float64类型，表示概率分布。
choices_answer_prob: float64类型，表示答案选项的概率。
choices_human_prob: float64类型，表示人工生成选项的概率。
choices_synthetic_conditioned_goldandstem_prob: float64类型，表示合成生成选项的概率。
group_averages: float64序列，表示组平均值。
logprobs_available: 布尔类型，表示是否可用对数概率。

数据分割

train: 包含250个样本，大小为556778字节。

搜集汇总

数据集介绍

构建方式

该数据集基于MMLU基准测试框架构建，通过精心设计的实验流程采集了多维度答题数据。研究人员采用结构化数据采集方法，将原始问题与多种选项组合形式（包括标准答案选项、人工生成选项和条件合成选项）进行系统化配对，同时记录语言模型对各选项的概率分布预测。数据构建过程中特别注重保持问题与选项之间的语义一致性，并通过概率标注和答案组装技术增强数据的可分析性。

特点

数据集最显著的特征在于其多维度的选项对比体系，不仅包含标准答案选项，还创新性地整合了人工构造选项和条件合成选项。每个问题条目均附有完整的概率分布数据、模型预测结果及组间平均值统计，为研究语言模型的决策机制提供了丰富素材。数据结构设计上采用层次化特征表示，既包含原始问题文本，又保留了不同选项类型的概率权重，支持细粒度的模型行为分析。

使用方法

该数据集特别适合用于研究语言模型在多选题解答中的认知偏差和决策模式。使用者可通过对比模型对标准答案、人工选项及合成选项的反应差异，分析模型的知识表征特性。实际应用中建议重点关注probability_distribution字段的概率分布数据，结合choices_answer_prob等概率指标进行交叉验证。对于进阶研究，可利用group_averages字段进行组间性能对比，或通过logprobs_available字段筛选可溯源的决策过程数据。

背景与挑战

背景概述

mmlu-pro-setting0H_2M_choices_only_exp4-gpt数据集作为多模态语言理解领域的重要资源，由前沿研究团队于近年构建，旨在探索大规模语言模型在复杂选择题场景下的推理能力。该数据集通过整合人工标注与合成生成的双轨数据，为模型评估提供了多维度的测量框架，其独特的概率分布特征和选项重组机制显著推进了机器理解人类决策模式的研究进程。核心设计理念聚焦于揭示语言模型在知识检索、逻辑推理和选项分析等认知任务中的潜在规律，已成为衡量AI系统综合认知水平的新基准。

当前挑战

该数据集面临的领域挑战主要体现在多跳推理问题的语义解构上，要求模型同时处理知识准确性和逻辑连贯性双重约束。构建过程中的技术难点涉及合成数据与真实人类选择的概率校准，以及不同选项生成策略对模型偏好的影响评估。数据标注环节需要平衡专家知识覆盖与常识多样性，而概率分布结构的引入则对评估指标设计提出了可解释性与计算效率的新要求。选项重组机制进一步增加了模型输出与人类预期对齐的验证复杂度。

常用场景

经典使用场景

在自然语言处理领域，mmlu-pro-setting0H_2M_choices_only_exp4-gpt数据集被广泛应用于评估和优化大型语言模型的多选题回答能力。该数据集通过提供丰富的问题、选项和答案组合，为研究者提供了一个标准化的测试平台，用于衡量模型在复杂知识推理任务中的表现。特别是在模型微调和零样本学习场景中，该数据集能够有效检验模型的知识广度和逻辑推理能力。

衍生相关工作

围绕mmlu-pro-setting0H_2M_choices_only_exp4-gpt数据集，研究者们开展了一系列经典工作，包括基于概率分布的模型校准方法、多选题回答的零样本学习策略，以及知识增强的语言模型微调技术。这些工作不仅拓展了数据集的应用范围，也为自然语言处理领域的多选题任务研究奠定了重要基础。

数据集最近研究