PromptEval/PromptEval_MMLU_full
收藏Hugging Face2024-06-07 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/PromptEval/PromptEval_MMLU_full
下载链接
链接失效反馈官方服务:
资源简介:
MMLU_PromptEval_full 数据集是一个用于问答任务的数据集,包含多个配置,每个配置具有不同的特征,如‘问题’、‘主题’、‘示例’、‘选项’、‘答案’、‘格式化输入’、‘模型输出’和‘正确性’。每个配置都有不同的分割,与各种模型相关联,显示了每个分割的数据集大小和示例数量。
The MMLU_PromptEval_full dataset is a question answering dataset consisting of multiple configurations. Each configuration contains distinct feature fields including 'Question', 'Topic', 'Demo', 'Options', 'Answer', 'Formatted Input', 'Model Output', and 'Correctness'. Each configuration has various data splits that are associated with different models, with the dataset size and number of examples for each split provided.
提供机构:
PromptEval
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 许可证: MIT
- 任务类别: 问答
- 数据集名称: MMLU_PromptEval_full
数据集配置
配置 format_0
- 特征:
question: 字符串subject: 字符串example: 整数 (int32)choices: 字符串序列answer: 类别标签 (A, B, C, D, E)input_formatted: 字符串model_output: 字符串correctness: 整数 (int8)
- 分割:
meta_llama_llama_3_8b: 40967634 字节, 14042 样本meta_llama_llama_3_8b_instruct: 40967594 字节, 14042 样本meta_llama_llama_3_70b_instruct: 40965182 字节, 14042 样本codellama_codellama_34b_instruct: 40827221 字节, 14042 样本google_flan_t5_xl: 40729214 字节, 14042 样本google_flan_t5_xxl: 40728930 字节, 14042 样本google_flan_ul2: 40728928 字节, 14042 样本ibm_mistralai_merlinite_7b: 40820070 字节, 14042 样本mistralai_mixtral_8x7b_instruct_v01: 40827213 字节, 14042 样本mistralai_mistral_7b_instruct_v0_2: 40828810 字节, 14042 样本google_gemma_7b: 54217882 字节, 14042 样本google_gemma_7b_it: 50624184 字节, 14042 样本tiiuae_falcon_40b: 40827222 字节, 14042 样本mistralai_mistral_7b_v0_1: 40827221 字节, 14042 样本tiiuae_falcon_180b: 40827222 字节, 14042 样本
- 下载大小: 157447067 字节
- 数据集大小: 635714527 字节
配置 format_104
- 特征:
question: 字符串subject: 字符串example: 整数 (int32)choices: 字符串序列answer: 类别标签 (A, B, C, D, E)input_formatted: 字符串model_output: 字符串correctness: 整数 (int8)
- 分割:
meta_llama_llama_3_8b: 41711868 字节, 14042 样本meta_llama_llama_3_8b_instruct: 41711864 字节, 14042 样本meta_llama_llama_3_70b_instruct: 41711812 字节, 14042 样本codellama_codellama_34b_instruct: 42245461 字节, 14042 样本google_flan_t5_xl: 42133203 字节, 14042 样本google_flan_t5_xxl: 42133166 字节, 14042 样本google_flan_ul2: 42133151 字节, 14042 样本ibm_mistralai_merlinite_7b: 42231264 字节, 14042 样本mistralai_mixtral_8x7b_instruct_v01: 41571413 字节, 14042 样本mistralai_mistral_7b_instruct_v0_2: 41571963 字节, 14042 样本google_gemma_7b: 55994487 字节, 14042 样本google_gemma_7b_it: 49139088 字节, 14042 样本tiiuae_falcon_40b: 42231421 字节, 14042 样本mistralai_mistral_7b_v0_1: 42245466 字节, 14042 样本tiiuae_falcon_180b: 42231422 字节, 14042 样本
- 下载大小: 157480740 字节
- 数据集大小: 650997049 字节
配置 format_110
- 特征:
question: 字符串subject: 字符串example: 整数 (int32)choices: 字符串序列answer: 类别标签 (A, B, C, D, E)input_formatted: 字符串model_output: 字符串correctness: 整数 (int8)
- 分割:
meta_llama_llama_3_8b: 40279584 字节, 14042 样本meta_llama_llama_3_8b_instruct: 40279558 字节, 14042 样本meta_llama_llama_3_70b_instruct: 40279548 字节, 14042 样本codellama_codellama_34b_instruct: 40223388 字节, 14042 样本google_flan_t5_xl: 39998898 字节, 14042 样本google_flan_t5_xxl: 39998748 字节, 14042 样本google_flan_ul2: 39998744 字节, 14042 样本ibm_mistralai_merlinite_7b: 40201992 字节, 14042 样本mistralai_mixtral_8x7b_instruct_v01: 40223212 字节, 14042 样本mistralai_mistral_7b_instruct_v0_2: 40221924 字节, 14042 样本google_gemma_7b: 55066171 字节, 14042 样本google_gemma_7b_it: 45424454 字节, 14042 样本tiiuae_falcon_40b: 40223406 字节, 14042 样本mistralai_mistral_7b_v0_1: 40223399 字节, 14042 样本tiiuae_falcon_180b: 40223416 字节, 14042 样本
- 下载大小: 155330846 字节
- 数据集大小: 622866442 字节
配置 format_111
- 特征:
question: 字符串subject: 字符串example: 整数 (int32)choices: 字符串序列answer: 类别标签 (A, B, C, D, E)input_formatted: 字符串model_output: 字符串correctness: 整数 (int8)
- 分割:
meta_llama_llama_3_8b: 40953598 字节, 14042 样本meta_llama_llama_3_8b_instruct: 40953548 字节, 14042 样本meta_llama_llama_3_70b_instruct: 40953434 字节, 14042 样本codellama_codellama_34b_instruct: 40223388 字节, 14042 样本google_flan_t5_xl: 39998783 字节, 14042 样本google_flan_t5_xxl: 39998744 字节, 14042 样本google_flan_ul2: 39998745 字节, 14042 样本ibm_mistralai_merlinite_7b: 40210433 字节, 14042 样本mistralai_mixtral_8x7b_instruct_v01: 40897140 字节, 14042 样本mistralai_mistral_7b_instruct_v0_2: 40894517 字节, 14042 样本google_gemma_7b: 55127411 字节, 14042 样本google_gemma_7b_it: 47099180 字节, 14042 样本tiiuae_falcon_40b: 40223409 字节, 14042 样本mistralai_mistral_7b_v0_1: 40223369 字节, 14042 样本tiiuae_falcon_180b: 40223403 字节, 14042 样本
- 下载大小: 156101239 字节
- 数据集大小: 627979102 字节
配置 format_112
- 特征:
question: 字符串subject: 字符串example: 整数 (int32)choices: 字符串序列answer: 类别标签 (A, B, C, D, E)input_formatted: 字符串model_output: 字符串correctness: 整数 (int8)
- 分割:
meta_llama_llama_3_8b: 40279584 字节, 14042 样本meta_llama_llama_3_8b_instruct: 40279542 字节, 14042 样本meta_llama_llama_3_70b_instruct: 40279442 字节, 14042 样本codellama_codellama_34b_instruct: 40223363 字节, 14042 样本google_flan_t5_xl: 39999032 字节, 14042 样本google_flan_t5_xxl: 39998746 字节, 14042 样本google_flan_ul2: 39998744 字节, 14042 样本ibm_mistralai_merlinite_7b: 40192596 字节, 14042 样本mistralai_mixtral_8x7b_instruct_v01: 40223215 字节, 14042 样本mistralai_mistral_7b_instruct_v0_2: 40221355 字节, 14042 样本google_gemma_7b: 55132374 字节, 14042 样本google_gemma_7b_it: 46449371 字节, 14042 样本tiiuae_falcon_40b: 40223406 字节, 14042 样本mistralai_mistral_7b_v0_1: 40223381 字节, 14042 样本tiiuae_falcon_180b: 40223416 字节, 14042 样本
- 下载大小: 155526690 字节
- 数据集大小: 623947567 字节
配置 format_113
- 特征:
question: 字符串subject: 字符串example: 整数 (int32)choices: 字符串序列answer: 类别标签 (A, B, C, D, E)input_formatted: 字符串model_output: 字符串correctness: 整数 (int8)
- 分割:
meta_llama_llama_3_8b: 40279584 字节, 14042 样本meta_llama_llama_3_8b_instruct: 40279532 字节, 14042 样本meta_llama_llama_3_70b_instruct: 40279564 字节, 14042 样本codellama_codellama_34b_instruct: 40897385 字节, 14042 样本google_flan_t5_xl: 40673105 字节, 14042 样本google_flan_t5_xxl: 40672763 字节, 14042 样本google_flan_ul2: 40672761 字节, 140
搜集汇总
数据集介绍

构建方式
在大型语言模型评估领域,PromptEval/PromptEval_MMLU_full数据集以MMLU基准为基础,通过系统化的提示工程构建而成。该数据集将原始MMLU的多选题库,运用多种预定义的提示格式进行结构化转换,生成了格式化的输入文本。构建过程中,针对每个问题,数据集不仅保留了原始的问题、选项和答案,还生成了经过特定提示模板处理后的input_formatted字段,并记录了多个主流语言模型在这些提示下的输出结果及其正确性,从而形成了一个多维度的模型响应集合。
使用方法
研究人员可利用该数据集深入探究提示工程与模型性能的关联。通过加载特定的配置(如format_104),可以获取对应提示格式下所有模型的输入、输出及正确性标签。典型应用包括分析不同提示策略如何影响各类模型的答案生成准确率,或进行细粒度的错误分析,以识别模型在特定学科或问题类型上的薄弱环节。该数据集为评估和比较语言模型在复杂知识推理任务上的鲁棒性提供了标准化的数据基础。
背景与挑战
背景概述
在大型语言模型(LLM)评估领域,PromptEval/PromptEval_MMLU_full数据集于近期由PromptEval团队构建,旨在系统性地探究提示工程对模型性能的影响。该数据集基于著名的MMLU(大规模多任务语言理解)基准,涵盖了从人文、社会科学到STEM等57个学科的多项选择题,核心研究问题聚焦于不同提示格式如何影响各类LLM在知识密集型任务上的准确性与鲁棒性。通过集成多个先进模型(如Llama、Gemma、Mistral等)的格式化输入与输出响应,该数据集为提示优化、模型比较及可解释性研究提供了丰富实证基础,显著推动了自动化评估与提示设计方法论的发展。
当前挑战
该数据集致力于解决提示工程在LLM评估中的关键挑战:如何量化提示变体对模型性能的细微影响,并克服因模型架构与训练差异导致的评估偏差。构建过程中,挑战主要体现在多模型输出的大规模收集与对齐,需确保不同提示格式下输入输出的一致性;同时,数据集的多样性要求涵盖广泛学科与复杂提示结构,这增加了数据清洗与标注的复杂度。此外,保持评估的公平性与可复现性,避免因提示设计的主观性引入噪声,亦是构建过程中的核心难点。
常用场景
经典使用场景
在大型语言模型评估领域,PromptEval/PromptEval_MMLU_full数据集作为一项关键资源,其经典使用场景聚焦于系统性地评估不同提示工程策略对模型性能的影响。该数据集基于MMLU基准构建,涵盖了从STEM到人文社科的多学科选择题,通过预定义的多种提示格式对同一批问题进行处理,使得研究者能够横向比较不同提示设计下模型输出的准确性与稳定性。这种设计为探索提示工程的最佳实践提供了标准化实验平台,尤其在分析模型对指令格式的敏感性方面具有重要价值。
解决学术问题
该数据集有效解决了提示工程研究中缺乏标准化、可复现评估框架的学术难题。通过提供多种结构化提示格式下众多主流语言模型的输出结果,它使得研究者能够定量分析提示模板如何影响模型的知识召回与推理能力,从而深化对模型指令遵循机制的理解。其意义在于为提示工程的实证研究奠定了数据基础,推动了从启发式设计向数据驱动优化的范式转变,对提升模型鲁棒性与泛化能力产生了深远影响。
实际应用
在实际应用层面,该数据集为开发更可靠的AI助手与知识问答系统提供了重要参考。工程师可利用其评估结果,筛选出对特定任务领域最有效的提示策略,从而优化生产环境中的模型部署。例如,在教育科技或专业咨询场景中,基于该数据集的发现可以设计出引导模型更准确输出专业内容的提示模板,提升终端用户体验与系统可信度。
数据集最近研究
最新研究方向
在大型语言模型评估领域,PromptEval/MMLU_full数据集聚焦于提示工程对模型性能的系统性影响。该数据集通过多种格式化提示配置,量化了不同指令设计在跨学科知识问答任务中的效果差异。前沿研究探索提示模板的细微调整如何引发模型输出的显著波动,揭示了模型对提示结构的敏感性。这一方向与当前提示优化、少样本学习及模型鲁棒性研究紧密相连,为构建更稳定、可解释的评估框架提供了实证基础,推动了自动化提示生成与评估方法的发展。
以上内容由遇见数据集搜集并总结生成



