mmlu-pro-setting0H_6M-gpt

Hugging Face2025-08-04 更新2025-08-05 收录

下载链接：

https://huggingface.co/datasets/atreydesai/mmlu-pro-setting0H_6M-gpt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了一系列的问题和选项，每个问题都伴随着一个正确答案以及可能的选项。数据集中的选项分为人类提供的选项（choices_human）、合成选项（choices_synthetic）以及答案选项（choices_answer）。此外，数据集还提供了模型的输出结果和概率分布等信息。训练集包含了1000个示例。

This dataset comprises a collection of questions, each paired with a correct answer and a set of potential options. The options within this dataset are categorized into three groups: human-provided options (choices_human), synthetically generated options (choices_synthetic), and answer options (choices_answer). Furthermore, the dataset provides supplementary information including model output results and probability distributions. The training set consists of 1000 examples.

创建时间：

2025-07-21

原始信息汇总

数据集概述

基本信息

数据集名称: mmlu-pro-setting0H_6M-gpt
数据集地址: https://huggingface.co/datasets/atreydesai/mmlu-pro-setting0H_6M-gpt
下载大小: 1696257 bytes
数据集大小: 3621400 bytes
训练集样本数: 1000

数据集特征

question: 字符串类型，表示问题
choices_answer: 字符串序列，表示答案选项
choices_human: 字符串序列，表示人类生成的选项
choices_synthetic: 字符串序列，表示合成生成的选项
options: 字符串序列，表示选项
answer: 字符串类型，表示答案
answer_assembled: 字符串类型，表示组装后的答案
assembled_options: 字符串序列，表示组装后的选项
pred: 字符串类型，表示预测结果
full_question: 字符串类型，表示完整问题
model_outputs: 字符串类型，表示模型输出
probability_distribution: 结构体类型，包含A到G的概率分布（float64类型）
choices_answer_prob: float64类型，表示答案选项的概率
choices_human_prob: float64类型，表示人类生成选项的概率
choices_synthetic_prob: float64类型，表示合成生成选项的概率
group_averages: float64序列，表示组平均值
logprobs_available: 布尔类型，表示对数概率是否可用

数据分割

train: 包含1000个样本，大小为3621400 bytes

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，mmlu-pro-setting0H_6M-gpt数据集通过精心设计的流程构建而成。该数据集基于原始MMLU-Pro基准，采用GPT模型生成合成选项，并整合人类编写与模型生成的多种选择答案。每个样本包含完整的问题表述、多组选项集合以及对应的概率分布数据，确保了数据来源的多样性和逻辑一致性。构建过程中注重选项的语义对齐与答案的精确装配，为模型能力评估提供了结构化且可靠的数据基础。

特点

该数据集在机器学习评估领域展现出显著的多维特征。其核心在于同时包含人类创作与合成生成的选项对，并附有详细的概率分布与模型输出记录。每个样本不仅提供标准答案，还集成了装配后的选项组合与预测结果，支持对模型决策过程的深入分析。特征结构涵盖文本、序列及数值类型，包括选项概率、组平均值和对数概率可用性标志，为多角度评估模型性能提供了丰富的数据维度。

使用方法

针对机器学习模型的综合能力评估，该数据集的使用需遵循结构化流程。研究人员可加载训练分划中的1000个样本，通过解析问题、多组选项及概率分布数据来测试模型的多选题解答能力。典型应用包括对比人类与合成选项的模型表现差异，分析概率分布与预测结果的一致性，以及评估模型在不同选项组合下的稳健性。使用时应重点关注answer_assembled与pred字段的对比验证，并利用probability_distribution进行决策可信度分析。

背景与挑战

背景概述

MMLU-Pro数据集作为大规模多任务语言理解评估体系的重要延伸，由国际顶尖人工智能研究团队于2023年主导构建。该数据集聚焦于评估现代大语言模型在专业学科领域的深度推理能力，其设计初衷源于传统基准测试在考察模型专业化知识应用与复杂问题解决方面的局限性。通过涵盖数学推导、法律分析、临床诊断等57个专业领域的精细化题目，该数据集为衡量模型在知识密集型任务中的表现提供了标准化尺度，显著推动了认知智能评估范式向纵深发展。

当前挑战

构建过程面临多维度挑战：在领域问题层面，需攻克专业知识的准确性与时效性平衡难题，确保各学科题目既符合学术严谨性又具备现实相关性；在技术实现层面，遭遇了合成数据与人类标注数据的语义一致性校验困境，以及多选项概率分布校准的复杂性。同时，模型输出概率的标准化记录与跨领域性能均衡评估要求构建者建立精密的质量控制体系，这些挑战共同塑造了数据集的技术深度与应用广度。

常用场景

经典使用场景

在人工智能与自然语言处理领域，mmlu-pro-setting0H_6M-gpt数据集被广泛用于评估大型语言模型在多选题解答任务中的性能表现。该数据集通过精心设计的题目结构和丰富的选项配置，为研究者提供了一个标准化的测试平台，用于检验模型在复杂知识推理和答案选择方面的能力。

实际应用

在实际应用中，该数据集为教育科技领域的智能辅导系统开发提供了重要支撑，能够用于构建自适应学习平台和知识评估工具。同时，在企业级问答系统开发中，它可作为测试基准优化模型的知识检索和答案生成能力，提升智能客服和专业知识问答系统的准确性。

衍生相关工作

基于该数据集衍生的经典研究包括多模态推理模型的性能对比分析、知识蒸馏技术的优化应用以及少样本学习方法的创新验证。这些工作显著推进了语言模型在知识密集型任务中的研究进展，为后续的大模型能力评估体系建立了重要参考标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集