mmlu-pro-setting3H_6M_choices_only_exp1-gpt

Hugging Face2025-08-18 更新2025-08-19 收录

下载链接：

https://huggingface.co/datasets/atreydesai/mmlu-pro-setting3H_6M_choices_only_exp1-gpt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了问题、选项、答案以及相关概率分布等信息，适用于训练机器学习模型进行问题回答等任务。训练集包含250个示例。

This dataset encompasses questions, options, answers, and associated probability distributions, among other relevant information. It is intended for training machine learning models on tasks including question answering. The training set consists of 250 examples.

创建时间：

2025-08-07

原始信息汇总

数据集概述

基本信息

数据集名称：mmlu-pro-setting3H_6M_choices_only_exp1-gpt
存储位置：https://huggingface.co/datasets/atreydesai/mmlu-pro-setting3H_6M_choices_only_exp1-gpt
下载大小：410122字节
数据集大小：781769字节
训练集样本数：250

数据结构

特征字段

question: 字符串类型，表示问题文本
choices_answer: 字符串序列，表示答案选项
choices_human: 字符串序列，表示人类生成的选项
choices_synthetic_conditioned_goldandstem: 字符串序列，表示合成生成的选项
options: 字符串序列，表示选项
answer: 字符串类型，表示答案
answer_assembled: 字符串类型，表示组装后的答案
assembled_options: 字符串序列，表示组装后的选项
pred: 字符串类型，表示预测结果
full_question: 字符串类型，表示完整问题
model_outputs: 字符串类型，表示模型输出
probability_distribution: 结构体类型，包含A-J的概率分布（float64）
choices_answer_prob: float64类型，表示答案选项概率
choices_human_prob: float64类型，表示人类选项概率
choices_synthetic_conditioned_goldandstem_prob: float64类型，表示合成选项概率
group_averages: float64序列，表示组平均值
logprobs_available: 布尔类型，表示是否可用对数概率

数据划分

train: 训练集，包含250个样本

配置信息

默认配置名称：default
数据文件路径：data/train-*

搜集汇总

数据集介绍

构建方式

在人工智能与自然语言处理交叉领域，mmlu-pro-setting3H_6M_choices_only_exp1-gpt数据集通过精心设计的实验流程构建而成。该数据集基于MMLU-Pro基准，采用GPT模型生成合成数据，特别聚焦于多项选择题的答案选项重构。构建过程中，模型在给定问题和黄金答案的条件下，生成合成选项，同时保留原始人类编写的选项作为对比。每个样本包含完整的概率分布数据，确保了数据生成的透明性和可追溯性。

使用方法

研究者可利用该数据集进行大语言模型的行为分析和评估研究。通过对比choices_human和choices_synthetic_conditioned_goldandstem字段，可以深入探究模型生成选项与人类编写选项的差异。概率分布数据为模型决策过程提供了可量化的洞察，而group_averages字段支持群体级别的性能分析。该数据集特别适用于测试模型在多项选择题场景下的推理能力、选项生成偏差以及概率校准效果。

背景与挑战

背景概述

mmlu-pro-setting3H_6M_choices_only_exp1-gpt数据集源自大规模多任务语言理解（MMLU）研究框架，由前沿人工智能实验室于2023年构建，旨在探索大语言模型在复杂多选项推理任务中的认知边界。该数据集通过结构化的问题-选项对设计，聚焦于模型对语义逻辑和知识关联的深层解析能力，为评估生成式预训练模型的决策透明度与概率校准机制提供了关键基准。其创新性地融合了人工标注与合成生成的双重数据源，推动了可解释人工智能在决策过程可视化方面的研究进展。

当前挑战

该数据集核心挑战在于解决多选项问答任务中模型决策过程的不透明性问题，特别是对概率分布与实际选择偏差的量化分析。构建过程中面临多重技术难点：首先需要平衡人类标注与合成数据之间的语义一致性，确保选项生成的逻辑连贯性；其次需设计精密的数据结构以同步记录模型输出的概率分布、选项重组结果及答案组装过程，这对数据架构的复杂度和计算精度提出了极高要求；最后还需处理多维度概率序列的标准化存储与检索效率问题，确保大规模实验数据的可复用性与分析有效性。

常用场景

经典使用场景

在人工智能评估领域，mmlu-pro-setting3H_6M_choices_only_exp1-gpt数据集被广泛用于测试大规模语言模型的多学科知识掌握能力。该数据集通过精心设计的多选题结构，涵盖科学、人文、社会科学等57个学科领域，为研究者提供了标准化评估框架。模型需要在有限选项中进行推理判断，这有效检验了其知识检索、逻辑分析和跨领域理解能力，成为衡量AI系统综合认知水平的重要基准。

解决学术问题

该数据集显著解决了大语言模型评估中存在的学科覆盖不均衡和评估维度单一问题。通过构建多层级知识体系，它使研究者能够系统分析模型在不同知识领域的表现差异，识别知识盲区。其创新的概率分布标注机制为理解模型决策过程提供了可解释性依据，推动了AI可信性研究的发展，为构建更可靠的知识推理系统奠定了实证基础。

实际应用

在教育科技领域，该数据集支撑了自适应学习系统的开发，通过分析模型答题模式优化知识传授策略。在专业辅助决策场景中，其多学科评估框架被用于构建医疗、法律等领域的专业AI助手能力认证体系。企业利用该数据集进行人才智能评估工具开发，实现对候选人知识结构的自动化测评，显著提升了人力资源配置的科学性。

数据集最近研究