adamkarvonen/chess_games
收藏Hugging Face2024-05-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/adamkarvonen/chess_games
下载链接
链接失效反馈官方服务:
资源简介:
lichess_6gb: 来自lichess数据库的6GB数据,包含16492151局游戏,6486463314个字符,未进行ELO过滤,包含2016年6月至2017年5月的游戏。lichess_9gb: 来自lichess数据库的9GB数据,未进行ELO过滤,包含2017年7月至2017年8月的游戏。lichess_100mb: 来自lichess数据库的100MB数据,包含30万局游戏,包含2016年1月的游戏,用于在LLM训练数据集之外的单独数据集上训练线性探针。Lichess_gt_18k: 来自lichess的约4GB数据,根据OpenAI的弱到强泛化论文,仅包含白方ELO大于1800的游戏。Stockfish: 4.5GB的数据,由ELO 3200的Stockfish作为白方与ELO 1300-3200的Stockfish作为黑方对弈生成。Lichess-stockfish mix: 包含大于1800 ELO的lichess游戏和Stockfish生成游戏的50/50混合。Lichess results: lichess数据,但在每局游戏前包含结果,以便提示模型。lichess_200k_elo_bins: 包含每个100 ELO分桶中最多20万局游戏,以便模型在更均匀的ELO分布上训练。Blocks数据集仅包含一列,用于训练,每个单元格是一个1024字符长的批次。
lichess_6gb: 来自lichess数据库的6GB数据,包含16492151局游戏,6486463314个字符,未进行ELO过滤,包含2016年6月至2017年5月的游戏。lichess_9gb: 来自lichess数据库的9GB数据,未进行ELO过滤,包含2017年7月至2017年8月的游戏。lichess_100mb: 来自lichess数据库的100MB数据,包含30万局游戏,包含2016年1月的游戏,用于在LLM训练数据集之外的单独数据集上训练线性探针。Lichess_gt_18k: 来自lichess的约4GB数据,根据OpenAI的弱到强泛化论文,仅包含白方ELO大于1800的游戏。Stockfish: 4.5GB的数据,由ELO 3200的Stockfish作为白方与ELO 1300-3200的Stockfish作为黑方对弈生成。Lichess-stockfish mix: 包含大于1800 ELO的lichess游戏和Stockfish生成游戏的50/50混合。Lichess results: lichess数据,但在每局游戏前包含结果,以便提示模型。lichess_200k_elo_bins: 包含每个100 ELO分桶中最多20万局游戏,以便模型在更均匀的ELO分布上训练。Blocks数据集仅包含一列,用于训练,每个单元格是一个1024字符长的批次。
提供机构:
adamkarvonen
原始信息汇总
数据集描述
lichess_6gb
- 大小:6GB
- 游戏数量:16,492,151 局
- 字符数量:6,486,463,314
- 过滤条件:未进行ELO过滤
- 时间范围:2016年6月和2017年5月
lichess_9gb
- 大小:9GB
- 过滤条件:未进行ELO过滤
- 时间范围:2017年7月和2017年8月
lichess_100mb
- 大小:100MB
- 游戏数量:300,000 局
- 时间范围:2016年1月
- 用途:用于在单独的数据集上训练线性探针
Lichess_gt_18k
- 大小:约4GB
- 过滤条件:仅包括白方ELO大于1800的游戏
Stockfish
- 大小:4.5GB
- 生成方式:白方为ELO 3200的Stockfish,黑方为ELO 1300-3200的Stockfish
Lichess-stockfish mix
- 大小:50 / 50 混合
- 内容:大于1800 ELO的lichess游戏和Stockfish生成的游戏
Lichess results
- 内容:包含每局比赛结果的lichess数据集
- 用途:用于指示模型获胜
lichess_200k_elo_bins
- 内容:每个100 ELO区间最多包含200,000局游戏
- 用途:使模型在更均匀的ELO分布上进行训练
其他信息
- 数据集包含元数据,如玩家技能、比赛结果等
- 数据集块仅包含一列,用于训练,每个单元格是一个1024字符长的批次



