mmlu-pro-setting0H_1M_choices_only_exp4-gpt
收藏Hugging Face2025-08-18 更新2025-08-19 收录
下载链接:
https://huggingface.co/datasets/atreydesai/mmlu-pro-setting0H_1M_choices_only_exp4-gpt
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含问题、选项、人类作答、合成条件下的金标准和词干选项、选项列表、答案、组装答案、组装选项、预测结果、完整问题、模型输出、概率分布、各选项的概率、组平均值和是否提供对数概率等信息。数据集分为训练集,大小为526139字节,共有250个样本。数据集下载大小为286301字节,整个数据集大小为526139字节。
创建时间:
2025-08-07
原始信息汇总
数据集概述
基本信息
- 数据集名称: mmlu-pro-setting0H_1M_choices_only_exp4-gpt
- 存储位置: https://huggingface.co/datasets/atreydesai/mmlu-pro-setting0H_1M_choices_only_exp4-gpt
- 下载大小: 286301字节
- 数据集大小: 526139字节
- 训练集样本数: 250
数据特征
- question: 字符串类型,表示问题。
- choices_answer: 字符串序列,表示答案选项。
- choices_human: 字符串序列,表示人类生成的选项。
- choices_synthetic_conditioned_goldandstem: 字符串序列,表示合成生成的选项。
- options: 字符串序列,表示选项。
- answer: 字符串类型,表示答案。
- answer_assembled: 字符串类型,表示组装后的答案。
- assembled_options: 字符串序列,表示组装后的选项。
- pred: 字符串类型,表示预测结果。
- full_question: 字符串类型,表示完整的问题。
- model_outputs: 字符串类型,表示模型输出。
- probability_distribution: 结构体类型,包含A和B两个字段,均为float64类型。
- choices_answer_prob: float64类型,表示答案选项的概率。
- choices_human_prob: float64类型,表示人类生成选项的概率。
- choices_synthetic_conditioned_goldandstem_prob: float64类型,表示合成生成选项的概率。
- group_averages: float64序列,表示组平均值。
- logprobs_available: 布尔类型,表示是否可用对数概率。
数据划分
- 训练集: 包含250个样本,大小为526139字节。
搜集汇总
数据集介绍

构建方式
在知识评估领域,mmlu-pro-setting0H_1M_choices_only_exp4-gpt数据集采用多模态构建策略,通过整合人工标注与合成数据生成技术形成基准测试集。其核心构建过程涉及对原始问题的语义解析,采用条件化生成模型产生具有黄金标注和词干特征的合成选项,同时保留人工构造选项作为对比参照。数据工程师通过概率分布建模确保每个问题选项组合的统计合理性,并采用结构化特征存储方式记录模型输出的完整决策轨迹。
特点
该数据集显著特征体现在其多维度的选项生成体系,同时包含人工构造选项、合成条件选项及概率标注的三重验证机制。每个样本不仅提供标准答案标注,还附带模型预测结果及其对应的概率分布,使得研究者能深入分析模型决策的不确定性。特征工程方面创新性地引入组平均分数和对数概率可用性标记,为模型能力评估提供细粒度分析维度。结构化字段设计实现了问题题干、选项序列与预测结果的完整对应关系。
使用方法
研究者可通过加载标准数据分割直接获取训练集,其中每个样本包含完整的问答元数据。典型使用场景包括:基于probability_distribution字段进行模型校准分析,通过对比choices_human与choices_synthetic_conditioned_goldandstem研究不同选项生成策略的影响,或利用answer_assembled验证模型的多跳推理能力。对于概率建模任务,logprobs_available标记可筛选出适合概率估计的样本子集。
背景与挑战
背景概述
mmlu-pro-setting0H_1M_choices_only_exp4-gpt数据集是近年来在自然语言处理领域兴起的一项重要资源,专注于多选问答任务的模型性能评估。该数据集由前沿研究团队构建,旨在探索大型语言模型在复杂知识推理任务中的表现。其核心研究问题聚焦于模型对多选问题的理解能力、选项干扰项的鲁棒性以及概率分布的合理性评估。作为MMLU(Massive Multitask Language Understanding)基准的衍生版本,该数据集通过引入合成条件选项和人类编写选项的对比,为模型可解释性研究提供了新的维度,对推动语言模型的认知能力评估具有重要意义。
当前挑战
该数据集面临的挑战主要体现在两个层面:在领域问题层面,多选问答任务要求模型具备细粒度的知识理解和选项对比能力,如何准确捕捉干扰项与正确答案之间的微妙差异成为关键难题;在构建过程层面,合成选项的生成需要平衡语义相关性和干扰强度,人类编写选项则需保证专业性和多样性,二者的概率分布对齐对评估指标的设计提出了更高要求。同时,模型输出的概率校准与真实人类判断之间的一致性验证,也是数据集质量控制的难点所在。
常用场景
经典使用场景
在自然语言处理领域,mmlu-pro-setting0H_1M_choices_only_exp4-gpt数据集为研究者提供了一个多模态语言理解的基准测试平台。该数据集通过精心设计的问答对和选项组合,能够有效评估模型在复杂语境下的推理能力和知识覆盖范围。经典使用场景包括模型预训练效果的验证、零样本或少样本学习性能的测试,以及不同生成策略的对比实验。
数据集最近研究
最新研究方向
在自然语言处理领域,mmlu-pro-setting0H_1M_choices_only_exp4-gpt数据集因其独特的结构设计而备受关注。该数据集不仅包含传统问答对,还整合了模型输出、概率分布等关键特征,为研究生成式预训练模型的行为模式提供了丰富素材。近期研究聚焦于探索模型在多项选择题场景下的决策机制,通过分析choices_answer_prob、choices_human_prob等概率指标,揭示大语言模型在知识推理过程中存在的认知偏差。该数据集特有的synthetic_conditioned_goldandstem字段,为研究知识蒸馏过程中人工标注与合成数据的协同效应开辟了新途径,相关成果已应用于教育智能化和医疗问答系统的优化升级。
以上内容由遇见数据集搜集并总结生成



