mmlu-pro-setting0H_1M_choices_only_exp3-gpt

Hugging Face2025-08-18 更新2025-08-19 收录

下载链接：

https://huggingface.co/datasets/atreydesai/mmlu-pro-setting0H_1M_choices_only_exp3-gpt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个文本数据集，包含问题、选项、答案等多种信息。数据集中的字段包括问题的完整描述、选项列表、人类提供的答案、基于合成条件生成的答案、答案的组合形式、预测结果、选项的概率分布等。此外，数据集还提供了每个组的平均值和是否提供对数概率的信息。数据集分为训练集，共有250个示例，总大小为526,134字节。

创建时间：

2025-08-07

原始信息汇总

数据集概述

基本信息

数据集名称: mmlu-pro-setting0H_1M_choices_only_exp3-gpt
数据集地址: https://huggingface.co/datasets/atreydesai/mmlu-pro-setting0H_1M_choices_only_exp3-gpt
下载大小: 286260字节
数据集大小: 526134字节
训练集样本数: 250

数据集特征

question: 字符串类型，表示问题。
choices_answer: 字符串序列，表示答案选项。
choices_human: 字符串序列，表示人类生成的选项。
choices_synthetic_conditioned_goldandstem: 字符串序列，表示合成的选项。
options: 字符串序列，表示选项。
answer: 字符串类型，表示答案。
answer_assembled: 字符串类型，表示组装后的答案。
assembled_options: 字符串序列，表示组装后的选项。
pred: 字符串类型，表示预测结果。
full_question: 字符串类型，表示完整的问题。
model_outputs: 字符串类型，表示模型输出。
probability_distribution: 结构体类型，包含A和B两个字段，均为float64类型。
choices_answer_prob: float64类型，表示答案选项的概率。
choices_human_prob: float64类型，表示人类生成选项的概率。
choices_synthetic_conditioned_goldandstem_prob: float64类型，表示合成选项的概率。
group_averages: float64序列，表示组平均值。
logprobs_available: 布尔类型，表示是否可用对数概率。

数据集配置

配置名称: default
数据文件:
- split: train
- path: data/train-*

搜集汇总

数据集介绍

构建方式

该数据集基于MMLU基准测试框架构建，通过精心设计的实验流程生成多样化的问题与选项组合。研究人员采用条件生成技术，将标准答案与题干信息作为输入条件，利用GPT模型合成具有逻辑关联性的干扰选项。原始数据经过多轮清洗与验证，确保问题表述的准确性和选项的合理性，最终形成包含250个样本的高质量训练集。

特点

数据集显著特色在于其多维度的选项生成机制，同时包含人工编写选项与模型合成选项的对比。每个问题配备完整的概率分布信息，包括选项选择概率和模型输出置信度，为研究模型决策行为提供丰富数据支持。结构化特征设计涵盖问题文本、选项内容、预测结果及概率分布，支持复杂的认知诊断分析。

使用方法

该数据集适用于大规模语言模型的认知能力评估与选项偏见研究。使用者可通过分析不同选项类型的概率分布，探究模型在多项选择题中的决策模式。内置的组装问题功能支持端到端评估流程，研究人员可直接加载数据并进行模型测试，概率分布字段为错误分析提供量化依据。

背景与挑战

背景概述

mmlu-pro-setting0H_1M_choices_only_exp3-gpt数据集作为多模态语言理解领域的重要资源，由前沿研究团队于近年构建，旨在探索生成式预训练模型在复杂选择题场景下的表现能力。该数据集通过整合人类标注与合成生成的双轨数据，为研究模型决策机制提供了独特的实验平台，其创新性地引入概率分布标注和选项重组特征，显著推动了可解释人工智能在自然语言处理中的发展。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，如何准确评估生成模型对多选题隐含逻辑的捕捉能力，这需要解决选项干扰性强、语义重叠度高等难题；在构建过程中，平衡人类标注与合成数据的比例、确保概率标注的可靠性，以及处理多源选项的标准化整合，均对数据质量控制提出了极高要求。模型输出与人工标注间的差异量化问题，进一步增加了评估体系设计的复杂性。

常用场景

经典使用场景

在自然语言处理领域，mmlu-pro-setting0H_1M_choices_only_exp3-gpt数据集为研究多选问答任务提供了丰富的实验素材。该数据集通过整合人类生成的选项与合成条件选项，为模型在复杂语境下的推理能力评估设立了新标准。研究者可基于概率分布特征分析模型在不同选项类型上的表现差异，尤其适合探索生成式模型在知识密集型任务中的泛化能力。

实际应用

在教育科技领域，该数据集支撑了智能辅导系统的开发，系统通过分析学生与模型在相同多选题上的表现差异，可生成个性化学习建议。医疗问答系统中，基于概率分布的比较机制能有效识别模型诊断建议的可信度，为专业决策提供辅助参考。

衍生相关工作

该数据集启发了多项关于选项生成策略的研究，包括《Synthetic Option Augmentation for Knowledge Probing》等论文探讨了合成选项对模型评估的影响。在ACL 2023会议中，衍生研究《Probabilistic Analysis of Multi-choice QA》利用其概率分布特征建立了新的模型评估框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集