five

furonghuang-lab/Easy2Hard-Bench

收藏
Hugging Face2024-11-25 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/furonghuang-lab/Easy2Hard-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
Easy2Hard-Bench是一个包含6个不同领域数据集(数学、编程、象棋和各种推理任务)的基准数据集。每个数据集的问题都标有连续值的难度级别。数据集的结构、数据字段、数据分割、难度分布以及数据集的创建过程都有详细说明。数据集主要用于分析语言模型在不同难度下的能力,并探索语言模型从简单到复杂的泛化能力。

Easy2Hard-Bench is a benchmark consisting of six datasets in different domains (mathematics, programming, chess, and various reasoning tasks). The problems from each dataset are labeled with continuous-valued difficulty levels. The datasets are mainly in English, with some LaTeX-rendered texts and code solutions in Python. The structure of each dataset includes training and evaluation splits, except for three datasets that only have evaluation splits. The difficulty distribution and the creation process for each dataset are also detailed in the documentation.
提供机构:
furonghuang-lab
原始信息汇总

Easy2Hard-Bench 数据集概述

数据集描述

Easy2Hard-Bench 是一个包含六个不同领域(数学、编程、国际象棋及各种推理任务)数据集的基准。每个数据集的问题都标有连续值的难度级别。

数据集配置

E2H-AMC

  • 特征:
    • contest: string
    • rating: float64
    • rating_std: float64
    • rating_quantile: float64
    • tag: string
    • subtest: string
    • year: int64
    • month: string
    • index: int64
    • problem: string
    • answer: string
    • solution: string
    • rating_tag: string
    • test_tag: string
    • item_difficulty: float64
    • unnorm_rating: float64
    • unnorm_rating_std: float64
    • unnorm_rating_lower: float64
    • unnorm_rating_upper: float64
    • ever_exist: bool
  • 分割:
    • train: 1000 个样本, 1306215 字节
    • eval: 2975 个样本, 3935954 字节
  • 下载大小: 2811269 字节
  • 数据集大小: 5242169 字节

E2H-ARC

  • 特征:
    • rating: float64
    • rating_std: float64
    • rating_quantile: float64
    • id: string
    • question: string
    • choices: struct
      • label: sequence: string
      • text: sequence: string
    • answerKey: string
    • model_avg_acc: float64
    • unnorm_rating: float64
    • unnorm_rating_std: float64
  • 分割:
    • eval: 1172 个样本, 431767 字节
  • 下载大小: 253021 字节
  • 数据集大小: 431767 字节

E2H-Codeforces

  • 特征:
    • contest_id: int64
    • problem_index: string
    • rating: float64
    • rating_std: float64
    • rating_volatility: float64
    • rating_quantile: float64
    • tag: string
    • detailed_tag: string
    • problem_name: string
    • problem_main: string
    • problem_note: string
    • input_spec: string
    • output_spec: string
    • sample_inputs: sequence: string
    • sample_outputs: sequence: string
    • inputs: sequence: string
    • answers: sequence: string
    • input_output: struct
      • inputs: sequence: string
      • outputs: sequence: string
    • solution_id_0: int64
    • solution_0: string
    • outputs_0: sequence: string
    • solution_id_1: int64
    • solution_1: string
    • outputs_1: sequence: string
    • solution_id_2: int64
    • solution_2: string
    • outputs_2: sequence: string
    • unnorm_rating: float64
    • unnorm_rating_std: float64
    • unnorm_rating_volatility: float64
    • reference_rating: float64
    • original_tags: sequence: string
    • ever_exist: bool
  • 分割:
    • train: 3663 个样本, 25286548 字节
    • eval: 4000 个样本, 52688262 字节
  • 下载大小: 33577472 字节
  • 数据集大小: 77974810 字节

E2H-GSM8K

  • 特征:
    • rating: float64
    • rating_std: float64
    • rating_quantile: float64
    • question: string
    • answer: string
    • model_avg_acc: float64
    • unnorm_rating: float64
    • unnorm_rating_std: float64
  • 分割:
    • eval: 1319 个样本, 777044 字节
  • 下载大小: 475944 字节
  • 数据集大小: 777044 字节

E2H-Lichess

  • 特征:
    • puzzle_id: string
    • rating: float64
    • rating_std: float64
    • rating_quantile: float64
    • tag: string
    • fen: string
    • pgn: string
    • annotated_pgn: string
    • uci_seq: string
    • san_seq: string
    • answer_san: string
    • answer_uci: string
    • init_num_moves: int64
    • player: string
    • popularity_score: int64
    • puzzle_num_plays: int64
    • motif_tags: sequence: string
    • phase_tags: sequence: string
    • mate_tags: sequence: string
    • special_move_tags: sequence: string
    • game_origin_tags: sequence: string
    • opening_tags: sequence: string
    • game_hash: string
    • game_url: string
    • game_pgn: string
    • game_annotated_pgn: string
    • unnorm_rating: int64
    • unnorm_rating_std: int64
    • previous_fen: string
    • last_move_uci: string
  • 分割:
    • train: 71763 个样本, 633749139 字节
    • eval: 5000 个样本, 44154200 字节
  • 下载大小: 297840777 字节
  • 数据集大小: 677903339 字节

E2H-Winogrande

  • 特征:
    • rating: float64
    • rating_std: float64
    • rating_quantile: float64
    • sentence: string
    • option1: string
    • option2: string
    • answer: string
    • model_avg_acc: float64
    • unnorm_rating: float64
    • unnorm_rating_std: float64
  • 分割:
    • eval: 1267 个样本, 224999 字节
  • 下载大小: 141808 字节
  • 数据集大小: 224999 字节

数据字段

E2H-AMC

字段 类型 描述
contest string 竞赛名称
rating float 估计难度
rating_std float 估计难度的标准差
rating_quantile float 估计难度的分位数
tag string 竞赛类型
subtest string 子测试名称
year int 竞赛年份
month string 竞赛月份
index string 子测试中的问题索引
problem string 问题的文本描述
answer string 问题的答案
solution string 问题的解决方案
rating_tag string 关于问题评级的标签
test_tag string 关于测试类型的标签
item_difficulty float 问题的项目难度
unnorm_rating float 未归一化的估计难度
unnorm_rating_std float 未归一化估计难度的标准差
unnorm_rating_lower float AoPS建议的难度下限
unnorm_rating_upper float AoPS建议的难度上限
ever_exist bool 问题是否存在于MATH数据集中

E2H-Codeforces

字段 类型 描述
contest_id int Codeforces竞赛ID
problem_index string 竞赛中的问题索引
rating float 估计难度
rating_std float 估计难度的标准差
rating_volatility float 估计难度的波动性
rating_quantile float 估计难度的分位数
tag string 问题类型
detailed_tag string 问题的详细类型
problem_name string 问题名称
problem_main string 问题的主体文本
problem_note string 问题的注释
input_spec string 问题的输入规范
output_spec string 问题的输出规范
sample_inputs string 问题的示例输入
sample_outputs string 问题的示例输出
inputs string 测试用例中的输入
answers string 测试用例中的标准输出
input_output string 测试用例中的标准输入和输出
outputs string 测试用例中的标准输出
solution_id_0 int 选定解决方案0的Codeforces提交ID
solution_0 string 选定解决方案0的源代码
outputs_0 string 选定解决方案0的输出
solution_id_1 int 选定解决方案1的Codeforces提交ID
solution_1 string 选定解决方案1的源代码
outputs_1 string 选定解决方案1的输出
solution_id_2 int 选定解决方案2的Codeforces提交ID
solution_2 string 选定解决方案2的源代码
outputs_2 string 选定解决方案2的输出
unnorm_rating float 未归一化的估计难度
unnorm_rating_std float 未归一化估计难度的标准差
unnorm_rating_volatility float 未归一化估计难度的波动性
reference_rating float Codeforces上的粗略参考难度评级
original_tags string Codeforces上的原始标签
ever_exist bool 问题是否存在于APPS数据集中

E2H-Lichess

字段 类型 描述
puzzle_id string Lichess上的谜题ID
rating float 估计难度
rating_std float 估计难度的标准差
rating_quantile float 估计难度的分位数
tag string 谜题类型
fen string 谜题的Forsyth-Edwards表示法
pgn string 谜题的便携式游戏表示法
annotated_pgn string 谜题的注释便携式游戏表示法
uci_seq string 谜题的通用国际象棋接口表示法
san_seq string 谜题的标准代数表示法
answer_san string 答案的标准代数表示法
answer_uci string 答案的通用国际象棋接口表示法
init_num_moves int 从初始棋盘形成谜题的移动次数
player string 解决谜题的一方,blackwhite
popularity_score int 谜题在Lichess上的受欢迎程度分数
puzzle_num_plays int 谜题在Lichess上的游玩次数
motif_tags string 关于谜题主题的标签
phase_tags string 关于谜题阶段的标签
mate_tags string 关于将死类型的标签
special_move_tags string 关于谜题中特殊移动的标签
game_origin_tags string 关于谜题起源的标签
opening_tags string 关于开局类型的标签
game_hash string 对应游戏的哈希码
game_url string 对应游戏的URL链接
game_pgn string 整个游戏的便携式游戏表示法
game_annotated_pgn string 整个游戏的注释便携式游戏表示法
unnorm_rating float 未归一化的估计难度
unnorm_rating_std float 未归一化估计难度的标准差
previous_fen string 对手最后一步之前的Forsyth-Edwards表示法
last_move_uci string 对手最后一步的通用国际象棋接口表示法

E2H-GSM8K, E2H-ARC, E2H-Winogrande

除了原始数据集的数据字段外,这三个数据集还包含以下与难度相关的数据字段:

字段 类型 描述
rating float 估计难度
rating_std float 估计难度的标准差
rating_quantile float 估计难度的分位数
model_avg_acc float 选定模型在Open LLM Leaderboard上的平均准确率
unnorm_rating float 未归一化的估计难度
unnorm_rating_std float 未归一化估计难度的标准差

数据分割

新构建的数据集

  • E2H-AMC, E2H-Codeforces, E2H-Lichess 包含训练和评估分割。

继承的数据集

  • E2H-GSM8K, E2H-ARC, E2H-Winogrande 仅包含评估分割,大小与原始数据集相同。
数据集 训练大小 评估大小
E2H-AMC 1,000 2,975
E2H-Codeforces 3,663 4,000
E2H-Lichess 71,763 5,000
E2H-GSM8K N.A. 1,319
E2H-ARC N.A. 1,172
E2H-Winogrande N.A. 1,267
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作