sam-paech/mmlu-pro-nomath

Name: sam-paech/mmlu-pro-nomath
Creator: sam-paech
Published: 2024-07-11 06:58:40
License: 暂无描述

Hugging Face2024-07-11 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/sam-paech/mmlu-pro-nomath

下载链接

链接失效反馈

官方服务：

资源简介：

MMLU-Pro-NoMath数据集是MMLU-Pro的一个子集，移除了需要多步计算的数学问题，保留了主要测试知识和推理能力的问题。数据集的设计目的是为了快速运行，并且对logprobs评估友好。数据集包含多个特征，如问题ID、问题内容、选项、答案、答案索引、推理内容、类别和来源等。数据集分为测试集和验证集，分别包含6966和70个样本。

The MMLU-Pro-NoMath dataset is a subset of MMLU-Pro with questions requiring multi-step calculation removed, retaining questions that primarily test knowledge and reasoning. The dataset is designed to be quick to run and friendly to logprobs evaluation. It includes features such as question ID, question content, options, answer, answer index, reasoning content, category, and source. The dataset is divided into test and validation sets, containing 6966 and 70 samples respectively.

提供机构：

sam-paech

原始信息汇总

MMLU-Pro-NoMath 数据集概述

数据集信息

特征

question_id: 问题ID，数据类型为 int64
question: 问题内容，数据类型为 string
options: 选项，数据类型为 string 序列
answer: 答案，数据类型为 string
answer_index: 答案索引，数据类型为 int64
cot_content: 链式思考内容，数据类型为 string
category: 类别，数据类型为 string
src: 来源，数据类型为 string

数据分割

test: 测试集，包含 6966 个样本，占用 5594657 字节
validation: 验证集，包含 70 个样本，占用 61129 字节

数据大小

下载大小: 2661455 字节
数据集总大小: 5655786 字节

配置

config_name: default
- data_files:
  - test: data/test-*
  - validation: data/validation-*

数据集描述

MMLU-Pro-NoMath 是 MMLU-Pro 的一个子集，去除了需要多步计算的问题（占原始测试集的 43%）。该子集主要用于快速评估模型在知识与推理方面的能力，同时避免因数学计算导致的评估偏差。

子集创建方法

使用 Claude-3.5-sonnet 分类器识别并去除需要多步计算的问题。
限制问题长度，以提高并行评估的速度并减少内存溢出的可能性。

评估方法

使用 logprobs 评估方法，通过计算输出 token 的概率来确定模型的答案。
该方法具有速度快、一致性高、简单易行的优点，但可能比生成方法（如 CoT）得分低。

数据集用途

用于评估模型在多领域知识与推理方面的能力，避免数学能力对评估结果的影响。
适用于需要快速评估且主要关注知识与推理能力的场景。

5,000+

优质数据集

54 个

任务类型

进入经典数据集