five

answerdotai/MMLU-SemiPro

收藏
Hugging Face2024-07-08 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/answerdotai/MMLU-SemiPro
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从TIGER-Lab/MMLU-Pro派生而来的,属于MMLU-Leagues编码器基准系列的一部分。数据集包含两个部分:MMLU-Amateur和MMLU-SemiPro。MMLU-Amateur的训练集包含Llama-3-8B-Instruct(5-shot)回答错误的所有问题,测试集包含其回答正确的问题,目的是衡量编码器在有限训练数据下与小型前沿模型性能的匹配能力。MMLU-SemiPro(即本数据集)的数据在训练集和测试集之间均匀分配,确保两个集合中包含Llama-3-8B-Instruct(5-shot)回答正确的问题比例相同,以保证难度分布的均匀性。数据按类别分层,确保每个类别的问题在两个集合中的数量相同。

This dataset is derived from TIGER-Lab/MMLU-Pro as part of the MMLU-Leagues encoder benchmark series. It contains two parts: MMLU-Amateur and MMLU-SemiPro. MMLU-Amateurs training set includes all questions that Llama-3-8B-Instruct (5-shot) gets wrong, and the test set includes all questions it gets right, aiming to measure the ability of an encoder, with relatively limited training data, to match the performance of a small frontier model. MMLU-SemiPro (this dataset) evenly splits the data between a train and a test set, ensuring that both splits contain exactly the same proportions of questions that Llama-3-8B-Instruct (5-shot) answers correctly, to ensure an even difficulty distribution. The data is stratified into categories to ensure that theres the exact same number of questions from each category in both splits.
提供机构:
answerdotai
原始信息汇总

数据集概述

数据集信息

特征

  • question_id: 问题ID,数据类型为int64。
  • question: 问题内容,数据类型为string。
  • options: 选项,数据类型为string序列。
  • answer: 答案,数据类型为string。
  • answer_index: 答案索引,数据类型为int64。
  • cot_content: 内容,数据类型为string。
  • category: 类别,数据类型为string。
  • src: 来源,数据类型为string。
  • llama_pred: Llama模型预测,数据类型为string。
  • llama_correct: Llama模型预测是否正确,数据类型为bool。

数据分割

  • train: 训练集,包含4990个样本,大小为3570151字节。
  • test: 测试集,包含4992个样本,大小为3604242字节。

数据集大小

  • 下载大小: 3500204字节。
  • 总大小: 7174393字节。

配置

  • config_name: default
    • train: 数据路径为data/train-*
    • test: 数据路径为data/test-*

许可证

  • license: MIT

任务类别

  • question-answering: 问答任务。

语言

  • language: 英语(en)。

数据集规模

  • size_categories: 1K<n<10K,表示数据集规模在1千到1万之间。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作