mmlu-pro-setting0H_3M_choices_only_exp4-gpt

Hugging Face2025-08-18 更新2025-08-19 收录

下载链接：

https://huggingface.co/datasets/atreydesai/mmlu-pro-setting0H_3M_choices_only_exp4-gpt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个字段，如问题（question）、选项（options）、答案（answer）等。选项包括人工编写的选项（choices_human）、基于条件生成的合成选项（choices_synthetic_conditioned_goldandstem）以及原始选项（choices_answer）。此外，数据集还包含了预测结果（pred）、完整的提问（full_question）、模型输出（model_outputs）和概率分布（probability_distribution）。数据集分为训练集（train），共有250个示例，大小为586716字节。

创建时间：

2025-08-07

原始信息汇总

数据集概述

基本信息

数据集名称: mmlu-pro-setting0H_3M_choices_only_exp4-gpt
下载大小: 316289 bytes
数据集大小: 586716 bytes
训练集样本数: 250

数据特征

question: 字符串类型，表示问题内容。
choices_answer: 字符串序列，表示答案选项。
choices_human: 字符串序列，表示人类生成的选项。
choices_synthetic_conditioned_goldandstem: 字符串序列，表示合成生成的选项。
options: 字符串序列，表示选项内容。
answer: 字符串类型，表示正确答案。
answer_assembled: 字符串类型，表示组装后的答案。
assembled_options: 字符串序列，表示组装后的选项。
pred: 字符串类型，表示预测结果。
full_question: 字符串类型，表示完整的问题内容。
model_outputs: 字符串类型，表示模型输出。
probability_distribution: 结构体类型，包含A、B、C、D四个选项的概率分布（float64类型）。
choices_answer_prob: float64类型，表示答案选项的概率。
choices_human_prob: float64类型，表示人类生成选项的概率。
choices_synthetic_conditioned_goldandstem_prob: float64类型，表示合成生成选项的概率。
group_averages: float64序列，表示组平均值。
logprobs_available: 布尔类型，表示是否可用对数概率。

数据分割

train: 包含250个样本，大小为586716 bytes。

搜集汇总

数据集介绍

构建方式

在知识评估领域，mmlu-pro-setting0H_3M_choices_only_exp4-gpt数据集的构建采用了多维度标注策略。该数据集通过整合人工标注与合成生成两种方式，构建了包含标准答案选项、人工生成选项以及条件合成选项的三重选择体系。每个问题条目不仅包含原始题干和选项，还记录了语言模型输出的概率分布及对数概率值，这种设计显著提升了数据集的细粒度分析能力。数据采集过程严格遵循实验控制原则，确保了不同条件生成的选项具有可比性。

特点

该数据集最突出的特点在于其多层次的选择项标注体系。除了传统的标准答案选项外，还包含了人工编写和条件合成生成的干扰项，为研究语言模型的决策机制提供了丰富素材。每个数据点都附带有完整的模型输出概率分布，使得研究者能够深入分析模型在不同类型干扰项下的表现差异。数据集采用结构化存储方式，将问题文本、选项内容、模型预测及概率分布等要素有机整合，极大便利了后续的分析工作。

使用方法

使用该数据集时，研究者可从多个维度展开探索性分析。通过比对标准答案选项与人工/合成选项的模型表现差异，可以深入理解语言模型的决策偏好。数据集提供的完整概率分布信息支持细粒度的错误模式分析，特别适合用于研究模型在多项选择题场景下的不确定性表现。建议使用者重点关注choices_answer_prob、choices_human_prob等概率特征字段，这些字段直接反映了模型对不同类型选项的倾向性。

背景与挑战

背景概述

mmlu-pro-setting0H_3M_choices_only_exp4-gpt数据集是近年来自然语言处理领域中针对多模态语言理解任务而构建的重要资源。该数据集由前沿研究团队开发，旨在探索大规模语言模型在多选题解答场景中的性能表现。数据集通过整合人类标注与合成生成的问题选项，为模型评估提供了多维度的比较基准，其结构化概率分布特征为理解模型决策机制提供了独特视角。作为mmlu系列研究的延伸，该数据集推动了模型可解释性与决策透明度方面的研究进展。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，多选题解答任务要求模型同时具备知识检索、逻辑推理和选项对比能力，现有模型在长选项语义理解和干扰项排除方面仍存在显著不足。数据构建过程中，如何平衡人类标注与合成数据的质量一致性构成主要难点，特别是保持不同生成方式选项间的可比性。概率分布标注的精度控制与多维度评估指标的融合，也对数据集的质量验证提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域，mmlu-pro-setting0H_3M_choices_only_exp4-gpt数据集被广泛用于评估和比较不同模型在多选题解答任务中的性能。该数据集通过提供丰富的选择题及其对应的答案选项，为研究者提供了一个标准化的测试平台。模型在此数据集上的表现能够直观反映其理解和推理能力。

解决学术问题

mmlu-pro-setting0H_3M_choices_only_exp4-gpt数据集解决了模型在多选题解答任务中的评估难题。通过提供多样化的题目和详细的概率分布数据，研究者可以深入分析模型在不同条件下的表现差异，从而推动模型优化和算法改进。该数据集为自然语言处理领域的学术研究提供了重要的数据支持。

衍生相关工作

基于mmlu-pro-setting0H_3M_choices_only_exp4-gpt数据集，研究者们开发了多种先进的模型和算法。例如，一些工作专注于利用该数据集优化模型的概率分布预测能力，另一些则探索了如何通过合成数据增强模型的泛化性能。这些衍生工作进一步推动了自然语言处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集