five

sam-paech/mmlu-pro-nomath

收藏
Hugging Face2024-07-11 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/sam-paech/mmlu-pro-nomath
下载链接
链接失效反馈
官方服务:
资源简介:
MMLU-Pro-NoMath数据集是MMLU-Pro的一个子集,移除了需要多步计算的数学问题,保留了主要测试知识和推理能力的问题。数据集的设计目的是为了快速运行,并且对logprobs评估友好。数据集包含多个特征,如问题ID、问题内容、选项、答案、答案索引、推理内容、类别和来源等。数据集分为测试集和验证集,分别包含6966和70个样本。

The MMLU-Pro-NoMath dataset is a subset of MMLU-Pro with questions requiring multi-step calculation removed, retaining questions that primarily test knowledge and reasoning. The dataset is designed to be quick to run and friendly to logprobs evaluation. It includes features such as question ID, question content, options, answer, answer index, reasoning content, category, and source. The dataset is divided into test and validation sets, containing 6966 and 70 samples respectively.
提供机构:
sam-paech
原始信息汇总

MMLU-Pro-NoMath 数据集概述

数据集信息

特征

  • question_id: 问题ID,数据类型为 int64
  • question: 问题内容,数据类型为 string
  • options: 选项,数据类型为 string 序列
  • answer: 答案,数据类型为 string
  • answer_index: 答案索引,数据类型为 int64
  • cot_content: 链式思考内容,数据类型为 string
  • category: 类别,数据类型为 string
  • src: 来源,数据类型为 string

数据分割

  • test: 测试集,包含 6966 个样本,占用 5594657 字节
  • validation: 验证集,包含 70 个样本,占用 61129 字节

数据大小

  • 下载大小: 2661455 字节
  • 数据集总大小: 5655786 字节

配置

  • config_name: default
    • data_files:
      • test: data/test-*
      • validation: data/validation-*

数据集描述

MMLU-Pro-NoMath 是 MMLU-Pro 的一个子集,去除了需要多步计算的问题(占原始测试集的 43%)。该子集主要用于快速评估模型在知识与推理方面的能力,同时避免因数学计算导致的评估偏差。

子集创建方法

  • 使用 Claude-3.5-sonnet 分类器识别并去除需要多步计算的问题。
  • 限制问题长度,以提高并行评估的速度并减少内存溢出的可能性。

评估方法

  • 使用 logprobs 评估方法,通过计算输出 token 的概率来确定模型的答案。
  • 该方法具有速度快、一致性高、简单易行的优点,但可能比生成方法(如 CoT)得分低。

数据集用途

  • 用于评估模型在多领域知识与推理方面的能力,避免数学能力对评估结果的影响。
  • 适用于需要快速评估且主要关注知识与推理能力的场景。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作