furonghuang-lab/Easy2Hard-Bench
收藏Hugging Face2024-11-25 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/furonghuang-lab/Easy2Hard-Bench
下载链接
链接失效反馈官方服务:
资源简介:
Easy2Hard-Bench是一个包含6个不同领域数据集(数学、编程、象棋和各种推理任务)的基准数据集。每个数据集的问题都标有连续值的难度级别。数据集的结构、数据字段、数据分割、难度分布以及数据集的创建过程都有详细说明。数据集主要用于分析语言模型在不同难度下的能力,并探索语言模型从简单到复杂的泛化能力。
Easy2Hard-Bench is a benchmark consisting of six datasets in different domains (mathematics, programming, chess, and various reasoning tasks). The problems from each dataset are labeled with continuous-valued difficulty levels. The datasets are mainly in English, with some LaTeX-rendered texts and code solutions in Python. The structure of each dataset includes training and evaluation splits, except for three datasets that only have evaluation splits. The difficulty distribution and the creation process for each dataset are also detailed in the documentation.
提供机构:
furonghuang-lab
原始信息汇总
Easy2Hard-Bench 数据集概述
数据集描述
Easy2Hard-Bench 是一个包含六个不同领域(数学、编程、国际象棋及各种推理任务)数据集的基准。每个数据集的问题都标有连续值的难度级别。
数据集配置
E2H-AMC
- 特征:
- contest: string
- rating: float64
- rating_std: float64
- rating_quantile: float64
- tag: string
- subtest: string
- year: int64
- month: string
- index: int64
- problem: string
- answer: string
- solution: string
- rating_tag: string
- test_tag: string
- item_difficulty: float64
- unnorm_rating: float64
- unnorm_rating_std: float64
- unnorm_rating_lower: float64
- unnorm_rating_upper: float64
- ever_exist: bool
- 分割:
- train: 1000 个样本, 1306215 字节
- eval: 2975 个样本, 3935954 字节
- 下载大小: 2811269 字节
- 数据集大小: 5242169 字节
E2H-ARC
- 特征:
- rating: float64
- rating_std: float64
- rating_quantile: float64
- id: string
- question: string
- choices: struct
- label: sequence: string
- text: sequence: string
- answerKey: string
- model_avg_acc: float64
- unnorm_rating: float64
- unnorm_rating_std: float64
- 分割:
- eval: 1172 个样本, 431767 字节
- 下载大小: 253021 字节
- 数据集大小: 431767 字节
E2H-Codeforces
- 特征:
- contest_id: int64
- problem_index: string
- rating: float64
- rating_std: float64
- rating_volatility: float64
- rating_quantile: float64
- tag: string
- detailed_tag: string
- problem_name: string
- problem_main: string
- problem_note: string
- input_spec: string
- output_spec: string
- sample_inputs: sequence: string
- sample_outputs: sequence: string
- inputs: sequence: string
- answers: sequence: string
- input_output: struct
- inputs: sequence: string
- outputs: sequence: string
- solution_id_0: int64
- solution_0: string
- outputs_0: sequence: string
- solution_id_1: int64
- solution_1: string
- outputs_1: sequence: string
- solution_id_2: int64
- solution_2: string
- outputs_2: sequence: string
- unnorm_rating: float64
- unnorm_rating_std: float64
- unnorm_rating_volatility: float64
- reference_rating: float64
- original_tags: sequence: string
- ever_exist: bool
- 分割:
- train: 3663 个样本, 25286548 字节
- eval: 4000 个样本, 52688262 字节
- 下载大小: 33577472 字节
- 数据集大小: 77974810 字节
E2H-GSM8K
- 特征:
- rating: float64
- rating_std: float64
- rating_quantile: float64
- question: string
- answer: string
- model_avg_acc: float64
- unnorm_rating: float64
- unnorm_rating_std: float64
- 分割:
- eval: 1319 个样本, 777044 字节
- 下载大小: 475944 字节
- 数据集大小: 777044 字节
E2H-Lichess
- 特征:
- puzzle_id: string
- rating: float64
- rating_std: float64
- rating_quantile: float64
- tag: string
- fen: string
- pgn: string
- annotated_pgn: string
- uci_seq: string
- san_seq: string
- answer_san: string
- answer_uci: string
- init_num_moves: int64
- player: string
- popularity_score: int64
- puzzle_num_plays: int64
- motif_tags: sequence: string
- phase_tags: sequence: string
- mate_tags: sequence: string
- special_move_tags: sequence: string
- game_origin_tags: sequence: string
- opening_tags: sequence: string
- game_hash: string
- game_url: string
- game_pgn: string
- game_annotated_pgn: string
- unnorm_rating: int64
- unnorm_rating_std: int64
- previous_fen: string
- last_move_uci: string
- 分割:
- train: 71763 个样本, 633749139 字节
- eval: 5000 个样本, 44154200 字节
- 下载大小: 297840777 字节
- 数据集大小: 677903339 字节
E2H-Winogrande
- 特征:
- rating: float64
- rating_std: float64
- rating_quantile: float64
- sentence: string
- option1: string
- option2: string
- answer: string
- model_avg_acc: float64
- unnorm_rating: float64
- unnorm_rating_std: float64
- 分割:
- eval: 1267 个样本, 224999 字节
- 下载大小: 141808 字节
- 数据集大小: 224999 字节
数据字段
E2H-AMC
| 字段 | 类型 | 描述 |
|---|---|---|
| contest | string | 竞赛名称 |
| rating | float | 估计难度 |
| rating_std | float | 估计难度的标准差 |
| rating_quantile | float | 估计难度的分位数 |
| tag | string | 竞赛类型 |
| subtest | string | 子测试名称 |
| year | int | 竞赛年份 |
| month | string | 竞赛月份 |
| index | string | 子测试中的问题索引 |
| problem | string | 问题的文本描述 |
| answer | string | 问题的答案 |
| solution | string | 问题的解决方案 |
| rating_tag | string | 关于问题评级的标签 |
| test_tag | string | 关于测试类型的标签 |
| item_difficulty | float | 问题的项目难度 |
| unnorm_rating | float | 未归一化的估计难度 |
| unnorm_rating_std | float | 未归一化估计难度的标准差 |
| unnorm_rating_lower | float | AoPS建议的难度下限 |
| unnorm_rating_upper | float | AoPS建议的难度上限 |
| ever_exist | bool | 问题是否存在于MATH数据集中 |
E2H-Codeforces
| 字段 | 类型 | 描述 |
|---|---|---|
| contest_id | int | Codeforces竞赛ID |
| problem_index | string | 竞赛中的问题索引 |
| rating | float | 估计难度 |
| rating_std | float | 估计难度的标准差 |
| rating_volatility | float | 估计难度的波动性 |
| rating_quantile | float | 估计难度的分位数 |
| tag | string | 问题类型 |
| detailed_tag | string | 问题的详细类型 |
| problem_name | string | 问题名称 |
| problem_main | string | 问题的主体文本 |
| problem_note | string | 问题的注释 |
| input_spec | string | 问题的输入规范 |
| output_spec | string | 问题的输出规范 |
| sample_inputs | string | 问题的示例输入 |
| sample_outputs | string | 问题的示例输出 |
| inputs | string | 测试用例中的输入 |
| answers | string | 测试用例中的标准输出 |
| input_output | string | 测试用例中的标准输入和输出 |
| outputs | string | 测试用例中的标准输出 |
| solution_id_0 | int | 选定解决方案0的Codeforces提交ID |
| solution_0 | string | 选定解决方案0的源代码 |
| outputs_0 | string | 选定解决方案0的输出 |
| solution_id_1 | int | 选定解决方案1的Codeforces提交ID |
| solution_1 | string | 选定解决方案1的源代码 |
| outputs_1 | string | 选定解决方案1的输出 |
| solution_id_2 | int | 选定解决方案2的Codeforces提交ID |
| solution_2 | string | 选定解决方案2的源代码 |
| outputs_2 | string | 选定解决方案2的输出 |
| unnorm_rating | float | 未归一化的估计难度 |
| unnorm_rating_std | float | 未归一化估计难度的标准差 |
| unnorm_rating_volatility | float | 未归一化估计难度的波动性 |
| reference_rating | float | Codeforces上的粗略参考难度评级 |
| original_tags | string | Codeforces上的原始标签 |
| ever_exist | bool | 问题是否存在于APPS数据集中 |
E2H-Lichess
| 字段 | 类型 | 描述 |
|---|---|---|
| puzzle_id | string | Lichess上的谜题ID |
| rating | float | 估计难度 |
| rating_std | float | 估计难度的标准差 |
| rating_quantile | float | 估计难度的分位数 |
| tag | string | 谜题类型 |
| fen | string | 谜题的Forsyth-Edwards表示法 |
| pgn | string | 谜题的便携式游戏表示法 |
| annotated_pgn | string | 谜题的注释便携式游戏表示法 |
| uci_seq | string | 谜题的通用国际象棋接口表示法 |
| san_seq | string | 谜题的标准代数表示法 |
| answer_san | string | 答案的标准代数表示法 |
| answer_uci | string | 答案的通用国际象棋接口表示法 |
| init_num_moves | int | 从初始棋盘形成谜题的移动次数 |
| player | string | 解决谜题的一方,black或white |
| popularity_score | int | 谜题在Lichess上的受欢迎程度分数 |
| puzzle_num_plays | int | 谜题在Lichess上的游玩次数 |
| motif_tags | string | 关于谜题主题的标签 |
| phase_tags | string | 关于谜题阶段的标签 |
| mate_tags | string | 关于将死类型的标签 |
| special_move_tags | string | 关于谜题中特殊移动的标签 |
| game_origin_tags | string | 关于谜题起源的标签 |
| opening_tags | string | 关于开局类型的标签 |
| game_hash | string | 对应游戏的哈希码 |
| game_url | string | 对应游戏的URL链接 |
| game_pgn | string | 整个游戏的便携式游戏表示法 |
| game_annotated_pgn | string | 整个游戏的注释便携式游戏表示法 |
| unnorm_rating | float | 未归一化的估计难度 |
| unnorm_rating_std | float | 未归一化估计难度的标准差 |
| previous_fen | string | 对手最后一步之前的Forsyth-Edwards表示法 |
| last_move_uci | string | 对手最后一步的通用国际象棋接口表示法 |
E2H-GSM8K, E2H-ARC, E2H-Winogrande
除了原始数据集的数据字段外,这三个数据集还包含以下与难度相关的数据字段:
| 字段 | 类型 | 描述 |
|---|---|---|
| rating | float | 估计难度 |
| rating_std | float | 估计难度的标准差 |
| rating_quantile | float | 估计难度的分位数 |
| model_avg_acc | float | 选定模型在Open LLM Leaderboard上的平均准确率 |
| unnorm_rating | float | 未归一化的估计难度 |
| unnorm_rating_std | float | 未归一化估计难度的标准差 |
数据分割
新构建的数据集
- E2H-AMC, E2H-Codeforces, E2H-Lichess 包含训练和评估分割。
继承的数据集
- E2H-GSM8K, E2H-ARC, E2H-Winogrande 仅包含评估分割,大小与原始数据集相同。
| 数据集 | 训练大小 | 评估大小 |
|---|---|---|
| E2H-AMC | 1,000 | 2,975 |
| E2H-Codeforces | 3,663 | 4,000 |
| E2H-Lichess | 71,763 | 5,000 |
| E2H-GSM8K | N.A. | 1,319 |
| E2H-ARC | N.A. | 1,172 |
| E2H-Winogrande | N.A. | 1,267 |



