mmlu-pro-setting0H_3M-gpt

Hugging Face2025-08-04 更新2025-08-05 收录

下载链接：

https://huggingface.co/datasets/atreydesai/mmlu-pro-setting0H_3M-gpt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了问题、选项、答案以及与问题相关的多种选项和概率信息等字段。数据集被划分为训练集，并提供了默认配置文件。具体来说，数据集中的字段包括问题文本、选项答案序列、人工选项序列、合成选项序列、选项序列、答案文本、组装答案文本、组装选项序列、预测结果、完整问题文本、模型输出、概率分布（包括A、B、C、D四个选项的概率）、各种选项的概率、组平均值和日志概率可用性标志。训练集大小为3192588字节，包含1000个示例。

创建时间：

2025-07-21

原始信息汇总

数据集概述

基本信息

数据集名称: mmlu-pro-setting0H_3M-gpt
存储位置: https://huggingface.co/datasets/atreydesai/mmlu-pro-setting0H_3M-gpt
下载大小: 1,527,204 字节
数据集大小: 3,192,588 字节

数据集特征

特征列表:
- question: 字符串类型，表示问题
- choices_answer: 字符串序列，表示答案选项
- choices_human: 字符串序列，表示人类生成的选项
- choices_synthetic: 字符串序列，表示合成生成的选项
- options: 字符串序列，表示选项
- answer: 字符串类型，表示答案
- answer_assembled: 字符串类型，表示组装后的答案
- assembled_options: 字符串序列，表示组装后的选项
- pred: 字符串类型，表示预测结果
- full_question: 字符串类型，表示完整问题
- model_outputs: 字符串类型，表示模型输出
- probability_distribution: 结构体，包含A、B、C、D四个选项的概率分布（float64类型）
- choices_answer_prob: float64类型，表示答案选项的概率
- choices_human_prob: float64类型，表示人类生成选项的概率
- choices_synthetic_prob: float64类型，表示合成生成选项的概率
- group_averages: float64序列，表示组平均值
- logprobs_available: 布尔类型，表示是否可用对数概率

数据集划分

训练集:
- 样本数量: 1,000
- 大小: 3,192,588 字节

配置信息

默认配置:
- 数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，mmlu-pro-setting0H_3M-gpt数据集通过精心设计的流程构建而成。该数据集基于MMLU-Pro基准，采用GPT模型生成合成选项，并与人类编写选项结合形成多选问题。构建过程中，模型输出被系统记录，包括概率分布和答案组装，确保数据多样性和复杂性，涵盖广泛学科主题以支撑全面模型评估。

特点

该数据集突出特点在于其丰富的结构化特征，每个样本包含问题、选项、答案及模型预测概率。特征如probability_distribution提供选项置信度，logprobs_available指示对数概率可用性，增强数据深度。合成与人类选项的融合创造了独特对比，支持分析模型行为差异，提升评估的细致度和可靠性。

使用方法

使用该数据集时，研究人员可加载HuggingFace平台上的训练分割，直接访问1000个样本。数据适用于测试模型在多选题上的性能，通过分析probability_distribution和pred等特征评估准确性和置信度。典型应用包括模型比较、偏差检测或教育AI开发，需结合具体任务解析features结构以实现有效利用。

背景与挑战

背景概述

MMLU-Pro数据集作为多任务知识评估领域的重要基准，由前沿人工智能研究机构于2023年推出，旨在构建一个涵盖科学、人文、社会科学等57个学科领域的综合评估体系。该数据集通过融合人类专家标注与合成数据生成技术，致力于解决大型语言模型在复杂知识推理和跨学科理解中的性能评估难题，为人工智能通用能力测评提供了标准化范式，显著推动了认知智能领域的量化研究进展。

当前挑战

该数据集面临的核心挑战在于如何平衡学科广度与知识深度的表征，既要确保57个学科领域间评估指标的公平性，又要解决合成数据与人类标注数据的质量一致性难题。构建过程中需克服多模态知识融合的技术壁垒，包括专家标注成本控制、合成数据真实性验证，以及概率分布标注的数学建模复杂性，这些因素共同构成了该数据集在可扩展性与评估效度方面的双重挑战。

常用场景

经典使用场景

在自然语言处理领域，mmlu-pro-setting0H_3M-gpt数据集作为多任务语言理解评估的重要资源，其经典使用场景集中于测试和比较大型语言模型在专业学科问题上的推理能力。研究者通过该数据集提供的丰富问题选项和概率分布数据，能够系统评估模型在不同知识领域的表现，从而推动模型在复杂语境下的理解与生成能力研究。

实际应用

在实际应用中，mmlu-pro-setting0H_3M-gpt数据集被广泛应用于教育技术、智能问答系统和专业辅助工具的研发。其结构化的问答数据和模型输出信息能够支撑自动化辅导系统的构建，帮助开发者在法律、医学、工程等专业领域设计出更具准确性和可信度的AI应用，满足高精度知识服务的需求。

衍生相关工作

围绕该数据集，学术界衍生出了一系列经典研究工作，特别是在模型鲁棒性评估和少样本学习策略方面。这些工作利用数据集中的合成与人类选择对比数据，深入探讨了模型在面对混合数据源时的表现，推动了诸如对抗性测试、数据增强技术以及跨领域适应性方法的发展，为后续研究提供了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集