mmlu-pro-nomath-sml

Hugging Face2024-07-11 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/sam-paech/mmlu-pro-nomath-sml

下载链接

链接失效反馈

官方服务：

资源简介：

MMLU-Pro-NoMath数据集是MMLU-Pro的一个子集，去除了需要多步骤计算的问题（占原始测试集的43%）。该数据集包含问题ID、问题、选项、答案、答案索引、推理内容、类别和来源等特征。它分为测试和验证两个部分，分别包含2639和70个样本。该数据集旨在通过排除复杂的数学计算问题，提供一个更快速、更有效的语言模型评估方法，专注于知识和推理问题。

创建时间：

2024-07-09

原始信息汇总

数据集概述

数据集信息

特征

question_id: 整数类型
question: 字符串类型
options: 字符串序列
answer: 字符串类型
answer_index: 整数类型
cot_content: 字符串类型
category: 字符串类型
src: 字符串类型

数据分割

test:
- 字节数: 1920589
- 样本数: 2639
validation:
- 字节数: 61129
- 样本数: 70

数据大小

下载大小: 996947 字节
数据集大小: 1981718 字节

配置

config_name: default
- 数据文件:
  - test: data/test-*
  - validation: data/validation-*

搜集汇总

数据集介绍

构建方式

MMLU-Pro-NoMath-Sml数据集是从MMLU-Pro数据集中筛选出的一个子集，旨在去除需要多步计算的数学问题，保留主要测试知识和推理能力的问题。通过使用Claude-3.5-sonnet模型对每个测试项进行分类，筛选出不需要复杂数学计算的问题。此外，为了加速评估过程，数据集还对问题的长度进行了限制，确保问题长度在合理范围内，避免评估时的内存溢出问题。

使用方法

MMLU-Pro-NoMath-Sml数据集可以通过多种方式进行评估，包括使用Eleuther LM-Eval进行logprobs评估，或通过TIGER-AI-Lab/MMLU-Pro进行生成式评估。logprobs评估方法通过计算每个选项的对数概率来确定模型的预测结果，具有速度快、一致性高的优点。生成式评估则允许模型通过生成文本推理来回答问题，适用于需要展示推理过程的场景。用户可以根据需求选择合适的评估方法，快速验证模型在知识和推理任务上的表现。

背景与挑战

背景概述

MMLU-Pro-NoMath-Sml数据集是MMLU-Pro的一个子集，旨在去除需要多步计算的数学问题，专注于评估模型的知识和推理能力。该数据集由TIGER-AI-Lab于2024年开发，旨在解决原始MMLU基准测试在大型语言模型时代逐渐饱和的问题。MMLU-Pro通过增加选项数量和提升问题难度，提供了更大的评估空间。MMLU-Pro-NoMath-Sml进一步优化了评估效率，减少了计算复杂度，使得模型评估更加快速和高效。该数据集在自然语言处理领域具有重要影响力，特别是在多领域知识和推理能力的评估方面。

当前挑战

MMLU-Pro-NoMath-Sml数据集面临的主要挑战包括：1) 在去除数学问题后，如何确保数据集仍然能够全面评估模型的知识和推理能力；2) 在构建过程中，如何准确识别并去除需要多步计算的数学问题，同时保留具有挑战性的非数学问题；3) 如何优化问题的长度分布，以提高评估的并行化效率并减少内存溢出的风险。此外，该数据集在评估方法上也面临挑战，特别是在使用logprobs评估时，如何确保评估结果的准确性和一致性，避免因评估方法的不同而导致结果偏差。

常用场景

经典使用场景

MMLU-Pro-NoMath-Sml数据集主要用于评估语言模型在多领域知识和推理能力上的表现，尤其适用于那些不涉及复杂数学计算的场景。通过剔除需要多步计算的数学问题，该数据集能够更专注于测试模型的知识储备和逻辑推理能力，特别适合用于快速评估模型的性能。

解决学术问题

该数据集解决了在评估语言模型时数学计算对知识推理测试的干扰问题。通过去除多步数学计算问题，研究人员可以更清晰地分析模型在知识理解和推理能力上的表现，而不受数学能力的限制。这为语言模型的评估提供了一个更为纯粹的知识推理测试环境，有助于推动模型在非数学领域的性能提升。

实际应用

在实际应用中，MMLU-Pro-NoMath-Sml数据集被广泛用于语言模型的快速评估和比较。由于其剔除了复杂的数学问题，评估过程更加高效，特别适合在资源有限的环境中进行大规模模型测试。此外，该数据集还可用于教育领域，帮助开发智能辅导系统，提升学生在多学科知识上的理解和应用能力。

数据集最近研究