mmlu-pro-setting0H_1M_choices_only_exp3-gpt
收藏Hugging Face2025-08-18 更新2025-08-19 收录
下载链接:
https://huggingface.co/datasets/atreydesai/mmlu-pro-setting0H_1M_choices_only_exp3-gpt
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个文本数据集,包含问题、选项、答案等多种信息。数据集中的字段包括问题的完整描述、选项列表、人类提供的答案、基于合成条件生成的答案、答案的组合形式、预测结果、选项的概率分布等。此外,数据集还提供了每个组的平均值和是否提供对数概率的信息。数据集分为训练集,共有250个示例,总大小为526,134字节。
创建时间:
2025-08-07
原始信息汇总
数据集概述
基本信息
- 数据集名称: mmlu-pro-setting0H_1M_choices_only_exp3-gpt
- 数据集地址: https://huggingface.co/datasets/atreydesai/mmlu-pro-setting0H_1M_choices_only_exp3-gpt
- 下载大小: 286260字节
- 数据集大小: 526134字节
- 训练集样本数: 250
数据集特征
- question: 字符串类型,表示问题。
- choices_answer: 字符串序列,表示答案选项。
- choices_human: 字符串序列,表示人类生成的选项。
- choices_synthetic_conditioned_goldandstem: 字符串序列,表示合成的选项。
- options: 字符串序列,表示选项。
- answer: 字符串类型,表示答案。
- answer_assembled: 字符串类型,表示组装后的答案。
- assembled_options: 字符串序列,表示组装后的选项。
- pred: 字符串类型,表示预测结果。
- full_question: 字符串类型,表示完整的问题。
- model_outputs: 字符串类型,表示模型输出。
- probability_distribution: 结构体类型,包含A和B两个字段,均为float64类型。
- choices_answer_prob: float64类型,表示答案选项的概率。
- choices_human_prob: float64类型,表示人类生成选项的概率。
- choices_synthetic_conditioned_goldandstem_prob: float64类型,表示合成选项的概率。
- group_averages: float64序列,表示组平均值。
- logprobs_available: 布尔类型,表示是否可用对数概率。
数据集配置
- 配置名称: default
- 数据文件:
- split: train
- path: data/train-*
搜集汇总
数据集介绍

构建方式
该数据集基于MMLU基准测试框架构建,通过精心设计的实验流程生成多样化的问题与选项组合。研究人员采用条件生成技术,将标准答案与题干信息作为输入条件,利用GPT模型合成具有逻辑关联性的干扰选项。原始数据经过多轮清洗与验证,确保问题表述的准确性和选项的合理性,最终形成包含250个样本的高质量训练集。
特点
数据集显著特色在于其多维度的选项生成机制,同时包含人工编写选项与模型合成选项的对比。每个问题配备完整的概率分布信息,包括选项选择概率和模型输出置信度,为研究模型决策行为提供丰富数据支持。结构化特征设计涵盖问题文本、选项内容、预测结果及概率分布,支持复杂的认知诊断分析。
使用方法
该数据集适用于大规模语言模型的认知能力评估与选项偏见研究。使用者可通过分析不同选项类型的概率分布,探究模型在多项选择题中的决策模式。内置的组装问题功能支持端到端评估流程,研究人员可直接加载数据并进行模型测试,概率分布字段为错误分析提供量化依据。
背景与挑战
背景概述
mmlu-pro-setting0H_1M_choices_only_exp3-gpt数据集作为多模态语言理解领域的重要资源,由前沿研究团队于近年构建,旨在探索生成式预训练模型在复杂选择题场景下的表现能力。该数据集通过整合人类标注与合成生成的双轨数据,为研究模型决策机制提供了独特的实验平台,其创新性地引入概率分布标注和选项重组特征,显著推动了可解释人工智能在自然语言处理中的发展。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,如何准确评估生成模型对多选题隐含逻辑的捕捉能力,这需要解决选项干扰性强、语义重叠度高等难题;在构建过程中,平衡人类标注与合成数据的比例、确保概率标注的可靠性,以及处理多源选项的标准化整合,均对数据质量控制提出了极高要求。模型输出与人工标注间的差异量化问题,进一步增加了评估体系设计的复杂性。
常用场景
经典使用场景
在自然语言处理领域,mmlu-pro-setting0H_1M_choices_only_exp3-gpt数据集为研究多选问答任务提供了丰富的实验素材。该数据集通过整合人类生成的选项与合成条件选项,为模型在复杂语境下的推理能力评估设立了新标准。研究者可基于概率分布特征分析模型在不同选项类型上的表现差异,尤其适合探索生成式模型在知识密集型任务中的泛化能力。
实际应用
在教育科技领域,该数据集支撑了智能辅导系统的开发,系统通过分析学生与模型在相同多选题上的表现差异,可生成个性化学习建议。医疗问答系统中,基于概率分布的比较机制能有效识别模型诊断建议的可信度,为专业决策提供辅助参考。
衍生相关工作
该数据集启发了多项关于选项生成策略的研究,包括《Synthetic Option Augmentation for Knowledge Probing》等论文探讨了合成选项对模型评估的影响。在ACL 2023会议中,衍生研究《Probabilistic Analysis of Multi-choice QA》利用其概率分布特征建立了新的模型评估框架。
以上内容由遇见数据集搜集并总结生成



