mmlu-pro-setting0H_6M_choices_only_exp4-gpt

Hugging Face2025-08-18 更新2025-08-19 收录

下载链接：

https://huggingface.co/datasets/atreydesai/mmlu-pro-setting0H_6M_choices_only_exp4-gpt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含问题、答案以及多个选项，其中选项包括人工生成的选项和合成条件下的选项。每个选项都有相应的概率分布，并且数据集还包含了问题完整文本和模型的输出概率。数据集分为训练集，共有250个示例，大小为678800字节。

This dataset contains questions, answers, and multiple options. The options include both manually generated ones and those generated under synthetic conditions. Each option is associated with a corresponding probability distribution. Additionally, the dataset includes the full text of the questions and the output probabilities of the model. The dataset is split into a training set, which comprises 250 examples and has a size of 678,800 bytes.

创建时间：

2025-08-07

原始信息汇总

数据集概述

基本信息

数据集名称: mmlu-pro-setting0H_6M_choices_only_exp4-gpt
存储位置: https://huggingface.co/datasets/atreydesai/mmlu-pro-setting0H_6M_choices_only_exp4-gpt
下载大小: 363453字节
数据集大小: 678800字节
训练集样本数: 250

数据集特征

question: 字符串类型，表示问题。
choices_answer: 字符串序列，表示答案选项。
choices_human: 字符串序列，表示人类生成的选项。
choices_synthetic_conditioned_goldandstem: 字符串序列，表示合成生成的选项。
options: 字符串序列，表示选项。
answer: 字符串类型，表示答案。
answer_assembled: 字符串类型，表示组装后的答案。
assembled_options: 字符串序列，表示组装后的选项。
pred: 字符串类型，表示预测结果。
full_question: 字符串类型，表示完整的问题。
model_outputs: 字符串类型，表示模型输出。
probability_distribution: 结构体类型，包含A到G的概率分布。
choices_answer_prob: 浮点类型，表示答案选项的概率。
choices_human_prob: 浮点类型，表示人类生成选项的概率。
choices_synthetic_conditioned_goldandstem_prob: 浮点类型，表示合成生成选项的概率。
group_averages: 浮点序列，表示组平均值。
logprobs_available: 布尔类型，表示是否可用对数概率。

数据集配置

配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在知识评估领域，mmlu-pro-setting0H_6M_choices_only_exp4-gpt数据集的构建采用了多模态学习方法，通过整合人类标注与合成数据生成技术形成复合数据源。该数据集以结构化特征工程为核心，将原始问题、选项序列及概率分布等要素封装为可计算的向量空间表示，特别设计了包含7个维度的概率分布结构体来捕捉模型输出的不确定性。数据采集过程严格遵循实验设计范式，确保250个训练样本在保持多样性的同时具备统计学意义。

特点

该数据集最显著的特征在于其多维度的选项表征体系，不仅包含原始问题和标准答案，还创新性地集成了人工构造选项与条件合成选项的对比分析。概率分布结构体通过A-G七个维度量化模型预测置信度，配合组平均值的序列化记录，为研究者在认知诊断领域提供了细粒度的分析工具。特征空间中同时保留了模型原始输出和答案组装结果，这种双重编码机制极大增强了数据集的解释性。

使用方法

研究者可通过加载标准化的数据分割接口快速获取训练集，每个样本包含完整的问答元数据和模型推理过程记录。典型应用场景包括但不限于：利用probability_distribution字段进行预测不确定性分析，通过对比choices_answer与choices_synthetic字段研究生成模型的选项偏差，或基于group_averages实现知识领域的聚类评估。数据集的struct类型特征支持直接转换为张量运算，便于与现代深度学习框架无缝集成。

背景与挑战

背景概述

mmlu-pro-setting0H_6M_choices_only_exp4-gpt数据集作为多模态语言理解领域的重要资源，由前沿研究团队开发，旨在探索大规模语言模型在复杂多选题场景下的表现。该数据集构建于深度学习与自然语言处理技术快速发展的背景下，通过整合人类标注与合成生成的问题选项，为模型评估提供了多维度的基准测试平台。其核心价值在于揭示了语言模型在知识推理、选项分析和概率预测等方面的能力边界，对推动可解释AI和机器认知研究具有显著意义。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，如何准确评估模型对多选题的深层语义理解能力，包括选项干扰项识别和知识关联性判断；在构建过程中，平衡人类标注与合成数据的质量一致性、确保选项概率分布的合理性，以及处理多选项组合带来的维度爆炸问题，均对数据集的科学性和实用性提出严峻考验。模型输出概率校准与真实人类选择倾向之间的偏差分析，进一步增加了研究复杂性。

常用场景

经典使用场景

在自然语言处理领域，mmlu-pro-setting0H_6M_choices_only_exp4-gpt数据集为研究者提供了一个多选问答任务的基准测试平台。该数据集通过精心设计的题目和选项，模拟了真实世界中的知识问答场景，成为评估语言模型理解和推理能力的经典工具。其丰富的特征结构允许研究者深入分析模型在不同类型问题上的表现差异。

衍生相关工作

基于该数据集的特征设计，催生了多项关于语言模型校准技术的研究。其独特的选项对比机制启发了模型偏见检测的新方法，概率分布结构则推动了不确定性量化研究的进展。在知识探测领域，衍生出结合人类与合成选项的混合评估框架，显著提升了模型评估的效度。

数据集最近研究