mmlu-pro-setting3H_0M_choices_only_exp1-gpt

Hugging Face2025-08-18 更新2025-08-19 收录

下载链接：

https://huggingface.co/datasets/atreydesai/mmlu-pro-setting3H_0M_choices_only_exp1-gpt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了一系列的问题和对应的选项、答案，以及模型输出的概率分布等信息。它适用于训练机器学习模型进行问题回答等任务。

This dataset comprises a collection of questions paired with their respective options, correct answers, and the probability distributions output by models, along with other relevant information. It is applicable for training machine learning models to perform tasks such as question answering.

创建时间：

2025-08-07

原始信息汇总

数据集概述

基本信息

数据集名称: mmlu-pro-setting3H_0M_choices_only_exp1-gpt
来源平台: Hugging Face
总样本量: 250
数据集大小: 598,416 字节
下载大小: 315,728 字节

数据结构

数据集包含以下字段：

文本字段

question: 问题文本（字符串类型）
answer: 答案文本（字符串类型）
answer_assembled: 组装答案文本（字符串类型）
pred: 预测结果文本（字符串类型）
full_question: 完整问题文本（字符串类型）
model_outputs: 模型输出文本（字符串类型）

选项字段

choices_answer: 答案选项序列（字符串序列）
choices_human: 人工选项序列（字符串序列）
choices_synthetic_conditioned_goldandstem: 合成条件选项序列（字符串序列）
options: 选项序列（字符串序列）
assembled_options: 组装选项序列（字符串序列）

数值字段

choices_answer_prob: 答案选项概率（浮点型）
choices_human_prob: 人工选项概率（浮点型）
choices_synthetic_conditioned_goldandstem_prob: 合成条件选项概率（浮点型）
group_averages: 组平均值序列（浮点序列）
logprobs_available: 对数概率可用性（布尔型）

概率分布结构

probability_distribution: 包含A、B、C、D四个选项的概率分布（浮点型）

数据划分

训练集: 250个样本，598,416字节

数据格式

数据文件格式: 未指定具体格式
配置文件: default配置，数据文件路径为data/train-*

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，mmlu-pro-setting3H_0M_choices_only_exp1-gpt数据集基于MMLU-Pro基准构建，通过精心筛选250个高质量多选题样本。构建过程采用结构化数据采集方法，每个样本包含完整的问题题干、四个候选选项及标准答案，并创新性地整合了人工生成选项与合成条件选项的对比数据。数据组织采用特征丰富的表格结构，确保每个样本包含概率分布、模型输出日志和答案组装信息，为机器学习模型提供多维度的训练和评估基础。

特点

该数据集最显著的特征在于其多维度的概率标注体系，每个样本不仅提供标准答案，还包含人工选项与合成选项的对比概率数据。特征结构涵盖完整的问答组件、模型输出轨迹和选项概率分布，特别配备了组平均概率和逻辑概率可用性标识。数据字段设计具有高度结构化特性，包含组装选项、预测结果和概率分布矩阵，为研究模型决策过程提供透明化的数据支持，适用于深度分析模型在多重选择场景中的行为模式。

使用方法

研究人员可加载该数据集进行生成式模型的性能评估，特别适用于分析模型在多选题推理中的概率校准特性。使用时应重点关注意见合成条件选项与人工选项的概率对比字段，通过解析probability_distribution结构分析模型置信度分布。典型应用流程包括：提取full_question字段作为输入，比对pred与answer字段计算准确率，并利用choices_answer_prob等概率指标进行错误模式分析。数据集支持端到端评估管道构建，适用于大语言模型在知识密集型任务中的系统性评测。

背景与挑战

背景概述

人工智能领域的知识评估数据集mmlu-pro-setting3H_0M_choices_only_exp1-gpt诞生于大规模语言模型迅猛发展的时代背景下，由专业研究团队基于MMLU基准扩展构建。该数据集专注于评估模型在多选题场景中的推理能力和知识覆盖广度，通过精心设计的问答结构和概率分布特征，为研究者提供了深入分析模型决策机制的窗口。其创新性地融合了人工标注与合成数据生成技术，不仅推动了模型可解释性研究的发展，更为认知计算领域的算法验证建立了新的标准范式。

当前挑战

该数据集核心挑战在于解决多选题场景中模型决策过程的不透明性问题，需要精确捕捉模型在候选答案间的概率分布特征。构建过程中面临多重技术难题：如何平衡人工标注与合成数据的质量一致性，确保选项序列的语义完整性；设计有效的概率分布数据结构以准确反映模型决策置信度；处理不同来源选项（人工/合成）的标准化表征问题。这些挑战直接关系到模型决策可解释性研究的可靠性和复现性，对数据集的结构设计和特征工程提出了极高要求。

常用场景

经典使用场景

在自然语言处理与机器智能评估领域，mmlu-pro-setting3H_0M_choices_only_exp1-gpt数据集被广泛用于测试模型在多选题解答任务中的推理能力。该数据集通过结构化的问题与选项设计，涵盖科学、人文与技术等多个学科，为研究者提供了一个标准化的评估平台，用以检验模型在复杂语境下的知识整合与逻辑推断表现。

实际应用

在教育科技与智能辅助决策系统中，该数据集为自适应学习平台和自动化测评工具提供了核心验证基准。其丰富的选项组合与概率输出可用于构建个性化答疑系统、优化考试命题逻辑，甚至在医疗诊断支持或法律案例推理等高风险领域中辅助进行多选项决策验证。

衍生相关工作

基于该数据集衍生的研究包括多项关于选项扰动对抗训练、概率蒸馏技术以及多模态推理增强的经典工作。例如结合强化学习的选项重排序策略、基于注意力权重的选项可信度分析，以及通过合成数据增强模型泛化能力的创新方法，这些研究显著推动了选择题推理任务的算法进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集