mmlu-pro-setting2H_2M_choices_only_exp2-gpt

Hugging Face2025-08-18 更新2025-08-19 收录

下载链接：

https://huggingface.co/datasets/atreydesai/mmlu-pro-setting2H_2M_choices_only_exp2-gpt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含问题和多个选项的问答数据集，其中包括人工生成的选项和合成条件下的选项。每个问题都有一个正确答案，并且提供了模型输出和概率分布等信息。数据集适用于训练和评估问答系统。

创建时间：

2025-08-07

原始信息汇总

数据集概述

基本信息

数据集名称: mmlu-pro-setting2H_2M_choices_only_exp2-gpt
下载大小: 335076 bytes
数据集大小: 625753 bytes
训练集样本数: 250

数据集特征

question: 字符串类型，表示问题内容。
choices_answer: 字符串序列，表示答案选项。
choices_human: 字符串序列，表示人类生成的选项。
choices_synthetic_conditioned_goldandstem: 字符串序列，表示合成生成的选项。
options: 字符串序列，表示选项内容。
answer: 字符串类型，表示正确答案。
answer_assembled: 字符串类型，表示组装后的答案。
assembled_options: 字符串序列，表示组装后的选项。
pred: 字符串类型，表示预测结果。
full_question: 字符串类型，表示完整的问题内容。
model_outputs: 字符串类型，表示模型输出。
probability_distribution: 结构体类型，包含A、B、C、D、E五个选项的概率值（float64类型）。
choices_answer_prob: float64类型，表示答案选项的概率。
choices_human_prob: float64类型，表示人类生成选项的概率。
choices_synthetic_conditioned_goldandstem_prob: float64类型，表示合成生成选项的概率。
group_averages: float64序列，表示组平均值。
logprobs_available: 布尔类型，表示是否可用对数概率。

数据集配置

默认配置:
- 训练集路径: data/train-*

搜集汇总

数据集介绍

构建方式

在知识评估与模型性能分析领域，mmlu-pro-setting2H_2M_choices_only_exp2-gpt数据集通过结构化设计实现了多维度的数据采集。其构建过程整合了人工标注与合成生成的双重机制，每个样本包含原始问题、人工编写选项、合成条件选项及模型预测输出等15个特征字段。数据采集严格遵循实验控制原则，通过概率分布结构体记录模型对各选项的置信度，并采用分组平均值量化不同条件下的表现差异。

特点

该数据集最显著的特征在于其多层次的问题表征体系，不仅保留了原始问题和标准答案，还创新性地引入了三种不同来源的选项集合。结构化概率分布字段为研究者提供了模型决策过程的透明度，而logprobs_available标志位则支持对数概率的深度分析。250个训练样本虽规模精炼，但通过组平均值的引入，实现了对小样本条件下模型行为的可靠观测。

使用方法

研究者可通过加载标准数据分割快速获取训练集，利用question和full_question字段进行问题理解研究，结合choices系列字段分析不同选项生成策略的影响。probability_distribution结构体适用于模型校准分析，而group_averages支持跨条件性能对比。对于生成模型研究，model_outputs与pred字段可直接用于输出质量评估，所有特征字段均采用标准化命名以便于程序化处理。

背景与挑战

背景概述

mmlu-pro-setting2H_2M_choices_only_exp2-gpt数据集是近年来自然语言处理领域针对多选问答任务开发的重要资源，由专业研究团队构建。该数据集旨在探索大型语言模型在多选问答中的表现，特别是在不同选项生成条件下的模型行为分析。数据集通过整合人工编写选项与合成生成选项，为研究模型决策机制提供了丰富的对比样本。其核心研究问题聚焦于语言模型在多选场景中的概率分布特性与选项生成策略的关联性，对理解模型认知偏差和优化评估方法具有显著意义。

当前挑战

该数据集面临的主要挑战体现在两个维度：在领域问题层面，多选问答任务要求模型同时具备准确理解题干语义和精确评估选项相关性的能力，而现有模型往往在长选项依赖和干扰项排除方面表现欠佳；在构建过程中，如何平衡人工编写选项的真实性与合成选项的多样性成为关键难题，研究者需要设计严谨的生成策略确保不同选项集合间的可比性，同时维持选项语义的合理性和区分度。概率分布的精确标注进一步增加了数据验证的复杂度。

常用场景

经典使用场景

在自然语言处理领域，mmlu-pro-setting2H_2M_choices_only_exp2-gpt数据集被广泛用于评估和比较不同模型在多项选择题解答任务上的性能。该数据集通过提供丰富的问答对和选项组合，为研究者提供了一个标准化的测试平台，用于衡量模型在复杂语境下的推理能力和知识覆盖范围。

实际应用

在实际应用中，mmlu-pro-setting2H_2M_choices_only_exp2-gpt数据集可用于开发智能教育辅助系统，如自动答题和个性化学习推荐。通过分析模型在该数据集上的表现，可以优化教育技术产品的性能，提升学习效率和用户体验。

衍生相关工作

基于该数据集，研究者们开展了一系列经典工作，包括模型微调策略的优化、知识蒸馏技术的改进以及多任务学习框架的设计。这些工作不仅推动了多项选择题解答技术的发展，还为其他相关领域的研究提供了宝贵的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集