sam-paech/mmlu-pro-nomath
收藏Hugging Face2024-07-11 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/sam-paech/mmlu-pro-nomath
下载链接
链接失效反馈官方服务:
资源简介:
MMLU-Pro-NoMath数据集是MMLU-Pro的一个子集,移除了需要多步计算的数学问题,保留了主要测试知识和推理能力的问题。数据集的设计目的是为了快速运行,并且对logprobs评估友好。数据集包含多个特征,如问题ID、问题内容、选项、答案、答案索引、推理内容、类别和来源等。数据集分为测试集和验证集,分别包含6966和70个样本。
The MMLU-Pro-NoMath dataset is a subset of MMLU-Pro with questions requiring multi-step calculation removed, retaining questions that primarily test knowledge and reasoning. The dataset is designed to be quick to run and friendly to logprobs evaluation. It includes features such as question ID, question content, options, answer, answer index, reasoning content, category, and source. The dataset is divided into test and validation sets, containing 6966 and 70 samples respectively.
提供机构:
sam-paech
原始信息汇总
MMLU-Pro-NoMath 数据集概述
数据集信息
特征
question_id: 问题ID,数据类型为int64question: 问题内容,数据类型为stringoptions: 选项,数据类型为string序列answer: 答案,数据类型为stringanswer_index: 答案索引,数据类型为int64cot_content: 链式思考内容,数据类型为stringcategory: 类别,数据类型为stringsrc: 来源,数据类型为string
数据分割
test: 测试集,包含 6966 个样本,占用 5594657 字节validation: 验证集,包含 70 个样本,占用 61129 字节
数据大小
- 下载大小: 2661455 字节
- 数据集总大小: 5655786 字节
配置
config_name:defaultdata_files:test:data/test-*validation:data/validation-*
数据集描述
MMLU-Pro-NoMath 是 MMLU-Pro 的一个子集,去除了需要多步计算的问题(占原始测试集的 43%)。该子集主要用于快速评估模型在知识与推理方面的能力,同时避免因数学计算导致的评估偏差。
子集创建方法
- 使用 Claude-3.5-sonnet 分类器识别并去除需要多步计算的问题。
- 限制问题长度,以提高并行评估的速度并减少内存溢出的可能性。
评估方法
- 使用 logprobs 评估方法,通过计算输出 token 的概率来确定模型的答案。
- 该方法具有速度快、一致性高、简单易行的优点,但可能比生成方法(如 CoT)得分低。
数据集用途
- 用于评估模型在多领域知识与推理方面的能力,避免数学能力对评估结果的影响。
- 适用于需要快速评估且主要关注知识与推理能力的场景。



