mmlu-pro-setting3H_5M_choices_only_exp1-gpt

Hugging Face2025-08-18 更新2025-08-19 收录

下载链接：

https://huggingface.co/datasets/atreydesai/mmlu-pro-setting3H_5M_choices_only_exp1-gpt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含问题、选项、答案以及相关概率分布的多字段数据集，适用于训练机器学习模型进行问答等任务。数据集分为训练集，并提供了默认配置。

创建时间：

2025-08-07

原始信息汇总

数据集概述

基本信息

数据集名称: mmlu-pro-setting3H_5M_choices_only_exp1-gpt
来源平台: Hugging Face
总样本数: 250
数据集大小: 751,619 字节
下载大小: 394,519 字节
数据格式: 结构化数据

数据结构

数据集包含以下字段：

文本字段

question: 问题文本（字符串类型）
answer: 答案（字符串类型）
answer_assembled: 组装后的答案（字符串类型）
pred: 预测结果（字符串类型）
full_question: 完整问题（字符串类型）
model_outputs: 模型输出（字符串类型）

序列字段

choices_answer: 答案选项序列（字符串序列）
choices_human: 人工选项序列（字符串序列）
choices_synthetic_conditioned_goldandstem: 合成条件选项序列（字符串序列）
options: 选项序列（字符串序列）
assembled_options: 组装选项序列（字符串序列）

数值字段

choices_answer_prob: 答案选项概率（浮点数）
choices_human_prob: 人工选项概率（浮点数）
choices_synthetic_conditioned_goldandstem_prob: 合成条件选项概率（浮点数）

概率分布字段

probability_distribution: 包含A-I九个选项的概率分布（浮点数）

其他字段

group_averages: 组平均值序列（浮点数序列）
logprobs_available: 对数概率可用性（布尔值）

数据划分

训练集: 250个样本，751,619字节

数据特征

数据集专注于多项选择题形式，包含原始问题、多种选项形式、概率分布和模型输出结果。

搜集汇总

数据集介绍

构建方式

在知识密集型问答研究领域，mmlu-pro-setting3H_5M_choices_only_exp1-gpt数据集通过精心设计的多阶段流程构建而成。其基础来源于广泛的学术主题，每个样本均包含原始问题及多个候选答案选项，并利用先进语言模型生成合成数据以增强多样性。构建过程中特别注重选项的重新组合与概率标注，确保数据既覆盖广泛知识面又具备统计可靠性，为模型评估提供了坚实的数据基础。

特点

该数据集最显著的特点在于其丰富的结构化特征设计，不仅包含原始问题与答案，还提供了人类编写和模型生成的多种选项变体。每个样本均附有详细的概率分布数据，精确刻画了各选项的模型置信度，并配备了答案组装和模型输出记录。这种多层次的信息封装使数据集能够支持细粒度的模型行为分析，为理解模型决策机制提供了独特视角。

使用方法

研究人员可借助该数据集进行多项高级实验，特别是针对模型在多项选择题上的性能评估与比较分析。通过利用其内置的概率分布和选项变体特征，能够深入探究模型的不确定性度量及选项干扰效应。数据集中的合成条件数据为研究数据增强技术提供了理想素材，而分组平均值指标则支持跨领域或跨难度的系统性模型评估。

背景与挑战

背景概述

大规模多任务语言理解数据集mmlu-pro-setting3H_5M_choices_only_exp1-gpt由人工智能研究机构于2023年推出，旨在深化对大型语言模型在多领域知识推理能力的评估。该数据集基于MMLU基准扩展构建，专注于考察模型在受限选择环境下的决策机制，通过结构化的问题-选项框架推动可解释人工智能研究的发展。其创新性地融合人类标注与合成数据生成技术，为认知计算领域提供了重要的评估范式，对促进语言模型的透明度和可靠性研究具有里程碑意义。

当前挑战

该数据集核心挑战在于解决多领域知识推理中选项干扰项的精确构建问题，需确保干扰项既具备语义合理性又保持逻辑区分度。构建过程中面临合成数据与人类标注数据的语义一致性协调难题，包括概率分布对齐和选项表征偏差控制。同时需克服大规模选项组合带来的计算复杂度激增，以及在保持数据多样性的前提下实现评估指标的可解释性转化。

常用场景

经典使用场景

在人工智能教育评估领域，mmlu-pro-setting3H_5M_choices_only_exp1-gpt数据集通过结构化多选题形式，为大型语言模型的学科知识掌握程度提供标准化测试平台。该数据集涵盖多学科知识体系，每个问题配备人工编写和合成生成的选项组合，能够系统评估模型在复杂决策场景中的推理准确性和选项辨别能力。研究者通过分析模型在不同选项类型下的概率分布表现，深入探究机器学习系统的认知边界与知识表征缺陷。

衍生相关工作

基于该数据集构建的评估范式，斯坦福大学团队开发了知识图谱增强的选项生成模型，显著提升了诊断精度。微软研究院据此提出概率校准新算法，有效改善了语言模型在高风险决策中的可靠性。后续研究进一步扩展了多模态选项评估框架，将文本选项与视觉元素结合，推动跨模态推理评估标准的发展。这些衍生工作共同构成了新一代人工智能教育评估的技术体系，持续推动着自适应学习系统的创新突破。

数据集最近研究