PromptEval/PromptEval_MMLU_full

Name: PromptEval/PromptEval_MMLU_full
Creator: PromptEval
Published: 2024-06-07 05:40:35
License: 暂无描述

Hugging Face2024-06-07 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/PromptEval/PromptEval_MMLU_full

下载链接

链接失效反馈

官方服务：

资源简介：

MMLU_PromptEval_full 数据集是一个用于问答任务的数据集，包含多个配置，每个配置具有不同的特征，如‘问题’、‘主题’、‘示例’、‘选项’、‘答案’、‘格式化输入’、‘模型输出’和‘正确性’。每个配置都有不同的分割，与各种模型相关联，显示了每个分割的数据集大小和示例数量。

The MMLU_PromptEval_full dataset is a question answering dataset consisting of multiple configurations. Each configuration contains distinct feature fields including 'Question', 'Topic', 'Demo', 'Options', 'Answer', 'Formatted Input', 'Model Output', and 'Correctness'. Each configuration has various data splits that are associated with different models, with the dataset size and number of examples for each split provided.

提供机构：

PromptEval

原始信息汇总

数据集概述

基本信息

语言: 英语
许可证: MIT
任务类别: 问答
数据集名称: MMLU_PromptEval_full

数据集配置

配置 `format_0`

特征:
- question: 字符串
- subject: 字符串
- example: 整数 (int32)
- choices: 字符串序列
- answer: 类别标签 (A, B, C, D, E)
- input_formatted: 字符串
- model_output: 字符串
- correctness: 整数 (int8)
分割:
- meta_llama_llama_3_8b: 40967634 字节, 14042 样本
- meta_llama_llama_3_8b_instruct: 40967594 字节, 14042 样本
- meta_llama_llama_3_70b_instruct: 40965182 字节, 14042 样本
- codellama_codellama_34b_instruct: 40827221 字节, 14042 样本
- google_flan_t5_xl: 40729214 字节, 14042 样本
- google_flan_t5_xxl: 40728930 字节, 14042 样本
- google_flan_ul2: 40728928 字节, 14042 样本
- ibm_mistralai_merlinite_7b: 40820070 字节, 14042 样本
- mistralai_mixtral_8x7b_instruct_v01: 40827213 字节, 14042 样本
- mistralai_mistral_7b_instruct_v0_2: 40828810 字节, 14042 样本
- google_gemma_7b: 54217882 字节, 14042 样本
- google_gemma_7b_it: 50624184 字节, 14042 样本
- tiiuae_falcon_40b: 40827222 字节, 14042 样本
- mistralai_mistral_7b_v0_1: 40827221 字节, 14042 样本
- tiiuae_falcon_180b: 40827222 字节, 14042 样本
下载大小: 157447067 字节
数据集大小: 635714527 字节

配置 `format_104`

特征:
- question: 字符串
- subject: 字符串
- example: 整数 (int32)
- choices: 字符串序列
- answer: 类别标签 (A, B, C, D, E)
- input_formatted: 字符串
- model_output: 字符串
- correctness: 整数 (int8)
分割:
- meta_llama_llama_3_8b: 41711868 字节, 14042 样本
- meta_llama_llama_3_8b_instruct: 41711864 字节, 14042 样本
- meta_llama_llama_3_70b_instruct: 41711812 字节, 14042 样本
- codellama_codellama_34b_instruct: 42245461 字节, 14042 样本
- google_flan_t5_xl: 42133203 字节, 14042 样本
- google_flan_t5_xxl: 42133166 字节, 14042 样本
- google_flan_ul2: 42133151 字节, 14042 样本
- ibm_mistralai_merlinite_7b: 42231264 字节, 14042 样本
- mistralai_mixtral_8x7b_instruct_v01: 41571413 字节, 14042 样本
- mistralai_mistral_7b_instruct_v0_2: 41571963 字节, 14042 样本
- google_gemma_7b: 55994487 字节, 14042 样本
- google_gemma_7b_it: 49139088 字节, 14042 样本
- tiiuae_falcon_40b: 42231421 字节, 14042 样本
- mistralai_mistral_7b_v0_1: 42245466 字节, 14042 样本
- tiiuae_falcon_180b: 42231422 字节, 14042 样本
下载大小: 157480740 字节
数据集大小: 650997049 字节

配置 `format_110`

特征:
- question: 字符串
- subject: 字符串
- example: 整数 (int32)
- choices: 字符串序列
- answer: 类别标签 (A, B, C, D, E)
- input_formatted: 字符串
- model_output: 字符串
- correctness: 整数 (int8)
分割:
- meta_llama_llama_3_8b: 40279584 字节, 14042 样本
- meta_llama_llama_3_8b_instruct: 40279558 字节, 14042 样本
- meta_llama_llama_3_70b_instruct: 40279548 字节, 14042 样本
- codellama_codellama_34b_instruct: 40223388 字节, 14042 样本
- google_flan_t5_xl: 39998898 字节, 14042 样本
- google_flan_t5_xxl: 39998748 字节, 14042 样本
- google_flan_ul2: 39998744 字节, 14042 样本
- ibm_mistralai_merlinite_7b: 40201992 字节, 14042 样本
- mistralai_mixtral_8x7b_instruct_v01: 40223212 字节, 14042 样本
- mistralai_mistral_7b_instruct_v0_2: 40221924 字节, 14042 样本
- google_gemma_7b: 55066171 字节, 14042 样本
- google_gemma_7b_it: 45424454 字节, 14042 样本
- tiiuae_falcon_40b: 40223406 字节, 14042 样本
- mistralai_mistral_7b_v0_1: 40223399 字节, 14042 样本
- tiiuae_falcon_180b: 40223416 字节, 14042 样本
下载大小: 155330846 字节
数据集大小: 622866442 字节

配置 `format_111`

特征:
- question: 字符串
- subject: 字符串
- example: 整数 (int32)
- choices: 字符串序列
- answer: 类别标签 (A, B, C, D, E)
- input_formatted: 字符串
- model_output: 字符串
- correctness: 整数 (int8)
分割:
- meta_llama_llama_3_8b: 40953598 字节, 14042 样本
- meta_llama_llama_3_8b_instruct: 40953548 字节, 14042 样本
- meta_llama_llama_3_70b_instruct: 40953434 字节, 14042 样本
- codellama_codellama_34b_instruct: 40223388 字节, 14042 样本
- google_flan_t5_xl: 39998783 字节, 14042 样本
- google_flan_t5_xxl: 39998744 字节, 14042 样本
- google_flan_ul2: 39998745 字节, 14042 样本
- ibm_mistralai_merlinite_7b: 40210433 字节, 14042 样本
- mistralai_mixtral_8x7b_instruct_v01: 40897140 字节, 14042 样本
- mistralai_mistral_7b_instruct_v0_2: 40894517 字节, 14042 样本
- google_gemma_7b: 55127411 字节, 14042 样本
- google_gemma_7b_it: 47099180 字节, 14042 样本
- tiiuae_falcon_40b: 40223409 字节, 14042 样本
- mistralai_mistral_7b_v0_1: 40223369 字节, 14042 样本
- tiiuae_falcon_180b: 40223403 字节, 14042 样本
下载大小: 156101239 字节
数据集大小: 627979102 字节

配置 `format_112`

特征:
- question: 字符串
- subject: 字符串
- example: 整数 (int32)
- choices: 字符串序列
- answer: 类别标签 (A, B, C, D, E)
- input_formatted: 字符串
- model_output: 字符串
- correctness: 整数 (int8)
分割:
- meta_llama_llama_3_8b: 40279584 字节, 14042 样本
- meta_llama_llama_3_8b_instruct: 40279542 字节, 14042 样本
- meta_llama_llama_3_70b_instruct: 40279442 字节, 14042 样本
- codellama_codellama_34b_instruct: 40223363 字节, 14042 样本
- google_flan_t5_xl: 39999032 字节, 14042 样本
- google_flan_t5_xxl: 39998746 字节, 14042 样本
- google_flan_ul2: 39998744 字节, 14042 样本
- ibm_mistralai_merlinite_7b: 40192596 字节, 14042 样本
- mistralai_mixtral_8x7b_instruct_v01: 40223215 字节, 14042 样本
- mistralai_mistral_7b_instruct_v0_2: 40221355 字节, 14042 样本
- google_gemma_7b: 55132374 字节, 14042 样本
- google_gemma_7b_it: 46449371 字节, 14042 样本
- tiiuae_falcon_40b: 40223406 字节, 14042 样本
- mistralai_mistral_7b_v0_1: 40223381 字节, 14042 样本
- tiiuae_falcon_180b: 40223416 字节, 14042 样本
下载大小: 155526690 字节
数据集大小: 623947567 字节

配置 `format_113`

特征:
- question: 字符串
- subject: 字符串
- example: 整数 (int32)
- choices: 字符串序列
- answer: 类别标签 (A, B, C, D, E)
- input_formatted: 字符串
- model_output: 字符串
- correctness: 整数 (int8)
分割:
- meta_llama_llama_3_8b: 40279584 字节, 14042 样本
- meta_llama_llama_3_8b_instruct: 40279532 字节, 14042 样本
- meta_llama_llama_3_70b_instruct: 40279564 字节, 14042 样本
- codellama_codellama_34b_instruct: 40897385 字节, 14042 样本
- google_flan_t5_xl: 40673105 字节, 14042 样本
- google_flan_t5_xxl: 40672763 字节, 14042 样本
- google_flan_ul2: 40672761 字节, 140

搜集汇总

数据集介绍

构建方式

在大型语言模型评估领域，PromptEval/PromptEval_MMLU_full数据集以MMLU基准为基础，通过系统化的提示工程构建而成。该数据集将原始MMLU的多选题库，运用多种预定义的提示格式进行结构化转换，生成了格式化的输入文本。构建过程中，针对每个问题，数据集不仅保留了原始的问题、选项和答案，还生成了经过特定提示模板处理后的input_formatted字段，并记录了多个主流语言模型在这些提示下的输出结果及其正确性，从而形成了一个多维度的模型响应集合。

使用方法

研究人员可利用该数据集深入探究提示工程与模型性能的关联。通过加载特定的配置（如format_104），可以获取对应提示格式下所有模型的输入、输出及正确性标签。典型应用包括分析不同提示策略如何影响各类模型的答案生成准确率，或进行细粒度的错误分析，以识别模型在特定学科或问题类型上的薄弱环节。该数据集为评估和比较语言模型在复杂知识推理任务上的鲁棒性提供了标准化的数据基础。

背景与挑战

背景概述

在大型语言模型（LLM）评估领域，PromptEval/PromptEval_MMLU_full数据集于近期由PromptEval团队构建，旨在系统性地探究提示工程对模型性能的影响。该数据集基于著名的MMLU（大规模多任务语言理解）基准，涵盖了从人文、社会科学到STEM等57个学科的多项选择题，核心研究问题聚焦于不同提示格式如何影响各类LLM在知识密集型任务上的准确性与鲁棒性。通过集成多个先进模型（如Llama、Gemma、Mistral等）的格式化输入与输出响应，该数据集为提示优化、模型比较及可解释性研究提供了丰富实证基础，显著推动了自动化评估与提示设计方法论的发展。

当前挑战

该数据集致力于解决提示工程在LLM评估中的关键挑战：如何量化提示变体对模型性能的细微影响，并克服因模型架构与训练差异导致的评估偏差。构建过程中，挑战主要体现在多模型输出的大规模收集与对齐，需确保不同提示格式下输入输出的一致性；同时，数据集的多样性要求涵盖广泛学科与复杂提示结构，这增加了数据清洗与标注的复杂度。此外，保持评估的公平性与可复现性，避免因提示设计的主观性引入噪声，亦是构建过程中的核心难点。

常用场景

经典使用场景

在大型语言模型评估领域，PromptEval/PromptEval_MMLU_full数据集作为一项关键资源，其经典使用场景聚焦于系统性地评估不同提示工程策略对模型性能的影响。该数据集基于MMLU基准构建，涵盖了从STEM到人文社科的多学科选择题，通过预定义的多种提示格式对同一批问题进行处理，使得研究者能够横向比较不同提示设计下模型输出的准确性与稳定性。这种设计为探索提示工程的最佳实践提供了标准化实验平台，尤其在分析模型对指令格式的敏感性方面具有重要价值。

解决学术问题

该数据集有效解决了提示工程研究中缺乏标准化、可复现评估框架的学术难题。通过提供多种结构化提示格式下众多主流语言模型的输出结果，它使得研究者能够定量分析提示模板如何影响模型的知识召回与推理能力，从而深化对模型指令遵循机制的理解。其意义在于为提示工程的实证研究奠定了数据基础，推动了从启发式设计向数据驱动优化的范式转变，对提升模型鲁棒性与泛化能力产生了深远影响。

实际应用

在实际应用层面，该数据集为开发更可靠的AI助手与知识问答系统提供了重要参考。工程师可利用其评估结果，筛选出对特定任务领域最有效的提示策略，从而优化生产环境中的模型部署。例如，在教育科技或专业咨询场景中，基于该数据集的发现可以设计出引导模型更准确输出专业内容的提示模板，提升终端用户体验与系统可信度。

数据集最近研究

PromptEval/PromptEval_MMLU_full

数据集概述

基本信息

数据集配置

配置 format_0

配置 format_104

配置 format_110

配置 format_111

配置 format_112