five

adamkarvonen/chess_games

收藏
Hugging Face2024-05-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/adamkarvonen/chess_games
下载链接
链接失效反馈
官方服务:
资源简介:
lichess_6gb: 来自lichess数据库的6GB数据,包含16492151局游戏,6486463314个字符,未进行ELO过滤,包含2016年6月至2017年5月的游戏。lichess_9gb: 来自lichess数据库的9GB数据,未进行ELO过滤,包含2017年7月至2017年8月的游戏。lichess_100mb: 来自lichess数据库的100MB数据,包含30万局游戏,包含2016年1月的游戏,用于在LLM训练数据集之外的单独数据集上训练线性探针。Lichess_gt_18k: 来自lichess的约4GB数据,根据OpenAI的弱到强泛化论文,仅包含白方ELO大于1800的游戏。Stockfish: 4.5GB的数据,由ELO 3200的Stockfish作为白方与ELO 1300-3200的Stockfish作为黑方对弈生成。Lichess-stockfish mix: 包含大于1800 ELO的lichess游戏和Stockfish生成游戏的50/50混合。Lichess results: lichess数据,但在每局游戏前包含结果,以便提示模型。lichess_200k_elo_bins: 包含每个100 ELO分桶中最多20万局游戏,以便模型在更均匀的ELO分布上训练。Blocks数据集仅包含一列,用于训练,每个单元格是一个1024字符长的批次。

lichess_6gb: 来自lichess数据库的6GB数据,包含16492151局游戏,6486463314个字符,未进行ELO过滤,包含2016年6月至2017年5月的游戏。lichess_9gb: 来自lichess数据库的9GB数据,未进行ELO过滤,包含2017年7月至2017年8月的游戏。lichess_100mb: 来自lichess数据库的100MB数据,包含30万局游戏,包含2016年1月的游戏,用于在LLM训练数据集之外的单独数据集上训练线性探针。Lichess_gt_18k: 来自lichess的约4GB数据,根据OpenAI的弱到强泛化论文,仅包含白方ELO大于1800的游戏。Stockfish: 4.5GB的数据,由ELO 3200的Stockfish作为白方与ELO 1300-3200的Stockfish作为黑方对弈生成。Lichess-stockfish mix: 包含大于1800 ELO的lichess游戏和Stockfish生成游戏的50/50混合。Lichess results: lichess数据,但在每局游戏前包含结果,以便提示模型。lichess_200k_elo_bins: 包含每个100 ELO分桶中最多20万局游戏,以便模型在更均匀的ELO分布上训练。Blocks数据集仅包含一列,用于训练,每个单元格是一个1024字符长的批次。
提供机构:
adamkarvonen
原始信息汇总

数据集描述

lichess_6gb

  • 大小:6GB
  • 游戏数量:16,492,151 局
  • 字符数量:6,486,463,314
  • 过滤条件:未进行ELO过滤
  • 时间范围:2016年6月和2017年5月

lichess_9gb

  • 大小:9GB
  • 过滤条件:未进行ELO过滤
  • 时间范围:2017年7月和2017年8月

lichess_100mb

  • 大小:100MB
  • 游戏数量:300,000 局
  • 时间范围:2016年1月
  • 用途:用于在单独的数据集上训练线性探针

Lichess_gt_18k

  • 大小:约4GB
  • 过滤条件:仅包括白方ELO大于1800的游戏

Stockfish

  • 大小:4.5GB
  • 生成方式:白方为ELO 3200的Stockfish,黑方为ELO 1300-3200的Stockfish

Lichess-stockfish mix

  • 大小:50 / 50 混合
  • 内容:大于1800 ELO的lichess游戏和Stockfish生成的游戏

Lichess results

  • 内容:包含每局比赛结果的lichess数据集
  • 用途:用于指示模型获胜

lichess_200k_elo_bins

  • 内容:每个100 ELO区间最多包含200,000局游戏
  • 用途:使模型在更均匀的ELO分布上进行训练

其他信息

  • 数据集包含元数据,如玩家技能、比赛结果等
  • 数据集块仅包含一列,用于训练,每个单元格是一个1024字符长的批次
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作