MMLU-Amateur

Hugging Face2024-07-08 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/answerdotai/MMLU-Amateur

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集源自TIGER-Lab/MMLU-Pro，作为MMLU-Leagues编码器基准系列的一部分。数据集包含MMLU-Amateur，训练集包含Llama-3-8B-Instruct（5-shot）错误回答的所有问题，测试集包含其正确回答的所有问题。目的是测量在相对有限的训练数据下，编码器匹配小型前沿模型性能的能力。数据被分类到不同类别，确保每个类别在训练和测试集中有相同数量的问题。数据集经过处理，确保每个类别在训练和测试集中的正确回答数量和总问题数量相差不超过1。

创建时间：

2024-07-08

原始信息汇总

数据集概述

数据集信息

特征列表:
- question_id: 问题ID，数据类型为 int64
- question: 问题内容，数据类型为 string
- options: 选项，序列类型为 string
- answer: 答案，数据类型为 string
- answer_index: 答案索引，数据类型为 int64
- cot_content: 内容，数据类型为 string
- category: 类别，数据类型为 string
- src: 来源，数据类型为 string
- llama_pred: Llama模型预测，数据类型为 string
- llama_correct: Llama模型预测是否正确，数据类型为 bool
数据分割:
- train: 训练集，包含 6120 个样本，大小为 4423260 字节
- test: 测试集，包含 3862 个样本，大小为 2751133 字节
数据集大小:
- 下载大小: 3448520 字节
- 数据集大小: 7174393 字节
配置:
- default 配置包含训练集和测试集的数据文件路径
许可证: MIT
任务类别: 问答
语言: 英语
数据集大小类别: 1K<n<10K

搜集汇总

数据集介绍

构建方式

MMLU-Amateur数据集的构建基于TIGER-Lab/MMLU-Pro数据集，通过引入Llama-3-8B-Instruct模型的预测结果进行筛选和分类。具体而言，训练集包含了Llama-3-8B-Instruct模型在5-shot设置下回答错误的所有问题，而测试集则包含了模型回答正确的问题。这一设计旨在评估编码器在有限训练数据下能否匹配小型前沿模型的性能。数据集的构建过程中，还通过分层抽样确保了每个类别的问题在训练集和测试集中具有相同的分布。

特点

MMLU-Amateur数据集的特点在于其独特的训练集和测试集划分方式。训练集仅包含Llama-3-8B-Instruct模型回答错误的问题，而测试集则包含模型回答正确的问题。这种设计使得数据集能够有效评估模型在有限数据下的泛化能力。此外，数据集还包含了丰富的元信息，如问题类别、选项、答案及模型预测结果，为研究提供了多维度的分析基础。

使用方法

MMLU-Amateur数据集的使用方法主要围绕模型性能评估展开。研究人员可以通过加载数据集，利用训练集进行模型训练，并在测试集上评估模型的性能。由于训练集和测试集的划分基于Llama-3-8B-Instruct模型的预测结果，因此该数据集特别适合用于研究模型在有限数据下的表现。此外，数据集的分层抽样设计确保了各类别问题的均衡分布，使得评估结果更具代表性。

背景与挑战

背景概述

MMLU-Amateur数据集是TIGER-Lab团队基于MMLU-Pro数据集构建的，旨在评估编码器在有限训练数据下与小型前沿模型（如Llama-3-8B-Instruct）性能的匹配能力。该数据集通过将Llama-3-8B-Instruct模型在5-shot设置下回答错误的问题作为训练集，回答正确的问题作为测试集，形成了一个具有挑战性的基准。数据集的构建不仅关注问题的多样性，还通过分层策略确保每个类别的问题数量在训练集和测试集中保持均衡。这一设计使得MMLU-Amateur成为研究模型在有限数据下泛化能力的重要工具。

当前挑战

MMLU-Amateur数据集面临的主要挑战包括：1）模型在有限训练数据下的泛化能力问题。由于训练集仅包含Llama-3-8B-Instruct模型回答错误的问题，模型需要从这些错误中学习并提升性能，这对模型的鲁棒性和适应性提出了较高要求。2）数据构建过程中的挑战。为确保每个类别的问题数量在训练集和测试集中均衡分布，数据集的构建需要复杂的分层和分组策略，这对数据处理和验证提出了较高的技术要求。此外，数据集的构建依赖于Llama-3-8B-Instruct模型的预测结果，模型的偏差可能影响数据集的多样性和代表性。

常用场景

经典使用场景

MMLU-Amateur数据集在自然语言处理领域中被广泛用于评估和提升编码器模型的性能。该数据集通过将Llama-3-8B-Instruct模型在5-shot设置下回答错误的问题作为训练集，回答正确的问题作为测试集，旨在衡量编码器在有限训练数据下能否达到小型前沿模型的性能水平。这种设计使得该数据集成为研究模型在低资源环境下的适应能力和泛化能力的理想工具。

衍生相关工作

MMLU-Amateur数据集衍生了一系列相关研究工作，特别是在模型性能评估和低资源学习领域。基于该数据集的研究成果包括改进的编码器架构、更高效的训练算法以及针对特定知识领域的模型优化策略。这些工作不仅推动了自然语言处理技术的发展，还为其他低资源学习任务提供了宝贵的经验和方法论支持。

数据集最近研究