mmlu-pro-setting1H_0M_choices_only_exp3-gpt

Hugging Face2025-08-18 更新2025-08-19 收录

下载链接：

https://huggingface.co/datasets/atreydesai/mmlu-pro-setting1H_0M_choices_only_exp3-gpt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了问题、选项、答案等字段，适用于文本分类或问答任务。数据集分为训练集，包含250个示例，总大小为529665字节。

创建时间：

2025-08-07

原始信息汇总

数据集概述

基本信息

数据集名称: mmlu-pro-setting1H_0M_choices_only_exp3-gpt
下载大小: 285565字节
数据集大小: 529665字节
训练集样本数: 250

数据集特征

question: 字符串类型，表示问题内容。
choices_answer: 字符串序列，表示答案选项。
choices_human: 字符串序列，表示人类生成的选项。
choices_synthetic_conditioned_goldandstem: 字符串序列，表示合成条件下生成的选项。
options: 字符串序列，表示选项内容。
answer: 字符串类型，表示正确答案。
answer_assembled: 字符串类型，表示组装后的答案。
assembled_options: 字符串序列，表示组装后的选项。
pred: 字符串类型，表示预测结果。
full_question: 字符串类型，表示完整的问题内容。
model_outputs: 字符串类型，表示模型输出。
probability_distribution: 结构体类型，包含A和B两个字段，均为float64类型。
choices_answer_prob: float64类型，表示答案选项的概率。
choices_human_prob: float64类型，表示人类生成选项的概率。
choices_synthetic_conditioned_goldandstem_prob: float64类型，表示合成条件下生成选项的概率。
group_averages: float64序列，表示组平均值。
logprobs_available: 布尔类型，表示是否可用对数概率。

数据集结构

训练集: 包含250个样本，占用529665字节。

搜集汇总

数据集介绍

构建方式

在知识推理与语言模型评估领域，mmlu-pro-setting1H_0M_choices_only_exp3-gpt数据集采用多模态构建策略，通过结构化特征工程整合了人类标注与合成数据。其核心框架包含问题主干、选项序列及概率分布等12个特征维度，特别设计了choices_synthetic_conditioned_goldandstem等合成数据通道，采用250条训练样本的小规模高密度架构，每个样本均附带模型输出的概率分布和组平均指标，确保数据粒度的精细性。

特点

该数据集最显著的特征在于其双层概率标注体系，既保留原始选项的人类标注概率choices_human_prob，又包含经语言模型生成的合成概率choices_synthetic_conditioned_goldandstem_prob。特征空间涵盖问题语义理解（full_question）、选项重组逻辑（assembled_options）及模型输出溯源（model_outputs）三大层面，通过logprobs_available标志位实现对数概率的可追溯验证，为研究语言模型的决策机制提供了多维度的观测窗口。

使用方法

研究者可通过解析概率分布结构体中的A/B选项对比值，结合answer_assembled字段验证模型输出的组装逻辑。典型应用场景包括：基于group_averages的群体决策分析、利用choices_answer_prob与choices_human_prob的偏差检测模型偏见、通过pred与answer的交叉验证评估模型推理能力。数据加载时需注意struct类型字段的特殊处理，建议优先使用HuggingFace数据集库的原生解析接口。

背景与挑战

背景概述

mmlu-pro-setting1H_0M_choices_only_exp3-gpt数据集是近年来在多模态语言理解领域兴起的重要资源，由前沿研究团队基于GPT模型构建而成。该数据集专注于探索模型在复杂选择题场景下的推理能力，通过整合人类标注与合成生成的双重答案选项，为评估语言模型的认知水平提供了标准化测试平台。其核心价值在于揭示了预训练模型在知识关联、逻辑推理方面的潜在机制，为可解释AI研究提供了关键数据支撑。

当前挑战

该数据集面临的核心挑战主要体现在评估框架的设计维度：如何准确量化模型在混合人类与合成选项中的决策偏差，成为验证评估效度的关键瓶颈。数据构建过程中需克服语义等效选项的生成难题，既要保持问题情境的一致性，又要控制选项间的区分度。概率分布特征的标注工作涉及复杂的跨模态对齐，需解决人工标注与模型输出之间的标度统一问题。

常用场景

经典使用场景

在自然语言处理领域，mmlu-pro-setting1H_0M_choices_only_exp3-gpt数据集被广泛应用于评估大型语言模型在多选题解答任务中的性能。该数据集通过提供丰富的多选题及其对应的选项、答案和模型输出，为研究者提供了一个标准化的测试平台，用于衡量模型在复杂语境下的推理能力和知识覆盖范围。

衍生相关工作

围绕该数据集已产生多项重要研究成果，包括基于概率分布的模型性能分析方法、选项生成策略对模型表现影响的研究等。这些工作不仅深化了人们对语言模型工作机制的理解，还为后续研究提供了宝贵的参考框架。部分研究进一步扩展了数据集的应用范围，将其应用于跨领域知识迁移和模型鲁棒性测试等新兴方向。

数据集最近研究