furonghuang-lab/Easy2Hard-Bench

Name: furonghuang-lab/Easy2Hard-Bench
Creator: furonghuang-lab
Published: 2024-11-25 16:56:38
License: 暂无描述

Hugging Face2024-11-25 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/furonghuang-lab/Easy2Hard-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

Easy2Hard-Bench是一个包含6个不同领域数据集（数学、编程、象棋和各种推理任务）的基准数据集。每个数据集的问题都标有连续值的难度级别。数据集的结构、数据字段、数据分割、难度分布以及数据集的创建过程都有详细说明。数据集主要用于分析语言模型在不同难度下的能力，并探索语言模型从简单到复杂的泛化能力。

Easy2Hard-Bench is a benchmark consisting of six datasets in different domains (mathematics, programming, chess, and various reasoning tasks). The problems from each dataset are labeled with continuous-valued difficulty levels. The datasets are mainly in English, with some LaTeX-rendered texts and code solutions in Python. The structure of each dataset includes training and evaluation splits, except for three datasets that only have evaluation splits. The difficulty distribution and the creation process for each dataset are also detailed in the documentation.

提供机构：

furonghuang-lab

原始信息汇总

Easy2Hard-Bench 数据集概述

数据集描述

Easy2Hard-Bench 是一个包含六个不同领域（数学、编程、国际象棋及各种推理任务）数据集的基准。每个数据集的问题都标有连续值的难度级别。

数据集配置

E2H-AMC

特征:
- contest: string
- rating: float64
- rating_std: float64
- rating_quantile: float64
- tag: string
- subtest: string
- year: int64
- month: string
- index: int64
- problem: string
- answer: string
- solution: string
- rating_tag: string
- test_tag: string
- item_difficulty: float64
- unnorm_rating: float64
- unnorm_rating_std: float64
- unnorm_rating_lower: float64
- unnorm_rating_upper: float64
- ever_exist: bool
分割:
- train: 1000 个样本, 1306215 字节
- eval: 2975 个样本, 3935954 字节
下载大小: 2811269 字节
数据集大小: 5242169 字节

E2H-ARC

特征:
- rating: float64
- rating_std: float64
- rating_quantile: float64
- id: string
- question: string
- choices: struct
  - label: sequence: string
  - text: sequence: string
- answerKey: string
- model_avg_acc: float64
- unnorm_rating: float64
- unnorm_rating_std: float64
分割:
- eval: 1172 个样本, 431767 字节
下载大小: 253021 字节
数据集大小: 431767 字节

E2H-Codeforces

特征:
- contest_id: int64
- problem_index: string
- rating: float64
- rating_std: float64
- rating_volatility: float64
- rating_quantile: float64
- tag: string
- detailed_tag: string
- problem_name: string
- problem_main: string
- problem_note: string
- input_spec: string
- output_spec: string
- sample_inputs: sequence: string
- sample_outputs: sequence: string
- inputs: sequence: string
- answers: sequence: string
- input_output: struct
  - inputs: sequence: string
  - outputs: sequence: string
- solution_id_0: int64
- solution_0: string
- outputs_0: sequence: string
- solution_id_1: int64
- solution_1: string
- outputs_1: sequence: string
- solution_id_2: int64
- solution_2: string
- outputs_2: sequence: string
- unnorm_rating: float64
- unnorm_rating_std: float64
- unnorm_rating_volatility: float64
- reference_rating: float64
- original_tags: sequence: string
- ever_exist: bool
分割:
- train: 3663 个样本, 25286548 字节
- eval: 4000 个样本, 52688262 字节
下载大小: 33577472 字节
数据集大小: 77974810 字节

E2H-GSM8K

特征:
- rating: float64
- rating_std: float64
- rating_quantile: float64
- question: string
- answer: string
- model_avg_acc: float64
- unnorm_rating: float64
- unnorm_rating_std: float64
分割:
- eval: 1319 个样本, 777044 字节
下载大小: 475944 字节
数据集大小: 777044 字节

E2H-Lichess

特征:
- puzzle_id: string
- rating: float64
- rating_std: float64
- rating_quantile: float64
- tag: string
- fen: string
- pgn: string
- annotated_pgn: string
- uci_seq: string
- san_seq: string
- answer_san: string
- answer_uci: string
- init_num_moves: int64
- player: string
- popularity_score: int64
- puzzle_num_plays: int64
- motif_tags: sequence: string
- phase_tags: sequence: string
- mate_tags: sequence: string
- special_move_tags: sequence: string
- game_origin_tags: sequence: string
- opening_tags: sequence: string
- game_hash: string
- game_url: string
- game_pgn: string
- game_annotated_pgn: string
- unnorm_rating: int64
- unnorm_rating_std: int64
- previous_fen: string
- last_move_uci: string
分割:
- train: 71763 个样本, 633749139 字节
- eval: 5000 个样本, 44154200 字节
下载大小: 297840777 字节
数据集大小: 677903339 字节

E2H-Winogrande

特征:
- rating: float64
- rating_std: float64
- rating_quantile: float64
- sentence: string
- option1: string
- option2: string
- answer: string
- model_avg_acc: float64
- unnorm_rating: float64
- unnorm_rating_std: float64
分割:
- eval: 1267 个样本, 224999 字节
下载大小: 141808 字节
数据集大小: 224999 字节

数据字段

E2H-AMC

字段	类型	描述
contest	string	竞赛名称
rating	float	估计难度
rating_std	float	估计难度的标准差
rating_quantile	float	估计难度的分位数
tag	string	竞赛类型
subtest	string	子测试名称
year	int	竞赛年份
month	string	竞赛月份
index	string	子测试中的问题索引
problem	string	问题的文本描述
answer	string	问题的答案
solution	string	问题的解决方案
rating_tag	string	关于问题评级的标签
test_tag	string	关于测试类型的标签
item_difficulty	float	问题的项目难度
unnorm_rating	float	未归一化的估计难度
unnorm_rating_std	float	未归一化估计难度的标准差
unnorm_rating_lower	float	AoPS建议的难度下限
unnorm_rating_upper	float	AoPS建议的难度上限
ever_exist	bool	问题是否存在于MATH数据集中

E2H-Codeforces

字段	类型	描述
contest_id	int	Codeforces竞赛ID
problem_index	string	竞赛中的问题索引
rating	float	估计难度
rating_std	float	估计难度的标准差
rating_volatility	float	估计难度的波动性
rating_quantile	float	估计难度的分位数
tag	string	问题类型
detailed_tag	string	问题的详细类型
problem_name	string	问题名称
problem_main	string	问题的主体文本
problem_note	string	问题的注释
input_spec	string	问题的输入规范
output_spec	string	问题的输出规范
sample_inputs	string	问题的示例输入
sample_outputs	string	问题的示例输出
inputs	string	测试用例中的输入
answers	string	测试用例中的标准输出
input_output	string	测试用例中的标准输入和输出
outputs	string	测试用例中的标准输出
solution_id_0	int	选定解决方案0的Codeforces提交ID
solution_0	string	选定解决方案0的源代码
outputs_0	string	选定解决方案0的输出
solution_id_1	int	选定解决方案1的Codeforces提交ID
solution_1	string	选定解决方案1的源代码
outputs_1	string	选定解决方案1的输出
solution_id_2	int	选定解决方案2的Codeforces提交ID
solution_2	string	选定解决方案2的源代码
outputs_2	string	选定解决方案2的输出
unnorm_rating	float	未归一化的估计难度
unnorm_rating_std	float	未归一化估计难度的标准差
unnorm_rating_volatility	float	未归一化估计难度的波动性
reference_rating	float	Codeforces上的粗略参考难度评级
original_tags	string	Codeforces上的原始标签
ever_exist	bool	问题是否存在于APPS数据集中

E2H-Lichess

字段	类型	描述
puzzle_id	string	Lichess上的谜题ID
rating	float	估计难度
rating_std	float	估计难度的标准差
rating_quantile	float	估计难度的分位数
tag	string	谜题类型
fen	string	谜题的Forsyth-Edwards表示法
pgn	string	谜题的便携式游戏表示法
annotated_pgn	string	谜题的注释便携式游戏表示法
uci_seq	string	谜题的通用国际象棋接口表示法
san_seq	string	谜题的标准代数表示法
answer_san	string	答案的标准代数表示法
answer_uci	string	答案的通用国际象棋接口表示法
init_num_moves	int	从初始棋盘形成谜题的移动次数
player	string	解决谜题的一方，`black`或`white`
popularity_score	int	谜题在Lichess上的受欢迎程度分数
puzzle_num_plays	int	谜题在Lichess上的游玩次数
motif_tags	string	关于谜题主题的标签
phase_tags	string	关于谜题阶段的标签
mate_tags	string	关于将死类型的标签
special_move_tags	string	关于谜题中特殊移动的标签
game_origin_tags	string	关于谜题起源的标签
opening_tags	string	关于开局类型的标签
game_hash	string	对应游戏的哈希码
game_url	string	对应游戏的URL链接
game_pgn	string	整个游戏的便携式游戏表示法
game_annotated_pgn	string	整个游戏的注释便携式游戏表示法
unnorm_rating	float	未归一化的估计难度
unnorm_rating_std	float	未归一化估计难度的标准差
previous_fen	string	对手最后一步之前的Forsyth-Edwards表示法
last_move_uci	string	对手最后一步的通用国际象棋接口表示法

E2H-GSM8K, E2H-ARC, E2H-Winogrande

除了原始数据集的数据字段外，这三个数据集还包含以下与难度相关的数据字段：

字段	类型	描述
rating	float	估计难度
rating_std	float	估计难度的标准差
rating_quantile	float	估计难度的分位数
model_avg_acc	float	选定模型在Open LLM Leaderboard上的平均准确率
unnorm_rating	float	未归一化的估计难度
unnorm_rating_std	float	未归一化估计难度的标准差

数据分割

新构建的数据集

E2H-AMC, E2H-Codeforces, E2H-Lichess 包含训练和评估分割。

继承的数据集

E2H-GSM8K, E2H-ARC, E2H-Winogrande 仅包含评估分割，大小与原始数据集相同。

数据集	训练大小	评估大小
E2H-AMC	1,000	2,975
E2H-Codeforces	3,663	4,000
E2H-Lichess	71,763	5,000
E2H-GSM8K	N.A.	1,319
E2H-ARC	N.A.	1,172
E2H-Winogrande	N.A.	1,267

5,000+

优质数据集

54 个

任务类型

进入经典数据集