Chess games dataset

github2024-11-21 更新2024-11-22 收录

下载链接：

https://github.com/angeluriot/Chess_games

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个高水平国际象棋游戏数据集，包含1400万场比赛，总计12亿步棋，用于训练机器学习模型。数据集中的比赛来自高水平玩家，平均ELO评分为2388，比赛时间跨度从1600年到2024年。

This is a high-level chess game dataset containing 14 million games and a total of 1.2 billion chess moves, intended for training machine learning models. The games in the dataset are sourced from high-level players, with an average ELO rating of 2388, and cover a time span from 1600 to 2024.

创建时间：

2024-11-20

原始信息汇总

♟️ Chess games 数据集概述

概述

数据集名称: Chess games
版本: v1.0
格式: Parquet
大小: 7.31 GB
游戏数量: 1400万
总移动次数: 12亿
游戏时间范围: 1600年至2024年（主要为近期）
玩家平均ELO: 2388
每局游戏平均移动次数: 84（最大692次）
游戏结束方式: 主要为投降或和棋

数据结构

每个记录包含以下字段：

date: 游戏日期（字符串格式 YYYY.MM.DD 或 null）
white_elo: 白方玩家ELO（整数或 null）
black_elo: 黑方玩家ELO（整数或 null）
end_type: 游戏结束方式（字符串，如 resignation, checkmate 等）
winner: 游戏胜者（字符串，white, black 或 null）
moves_san: 标准代数记谱法（列表，如 Nxg3+）
moves_uci: 通用国际象棋接口记谱法（列表，如 h5f4）
moves_custom: 自定义记谱法（列表，如 w.♘e2♘g3.x.+）
source: 游戏来源（字符串）

自定义记谱法

moves_custom 字段包含以下信息：

玩家颜色（w 为白方，b 为黑方）
移动前后棋子状态
是否捕获棋子（x 表示捕获，x* 表示吃过路兵）
是否将军或将死（+ 表示将军，+# 表示将死）

数据来源

数据集包含来自多个来源的游戏，主要来源如下：

Lichess Elite Database: 5,525,245 局 (38.94%)
Lumbras Giga Base: 3,701,341 局 (26.09%)
PGN Mentor: 3,431,537 局 (24.19%)
The Week in Chess: 858,163 局 (6.05%)
Masters: 322,166 局 (2.27%)
Lichess Broadcast: 105,329 局 (0.74%)
Chess OK: 62,895 局 (0.44%)
BritBase: 60,148 局 (0.42%)
KingBase: 59,317 局 (0.42%)
Convekta: 37,536 局 (0.26%)
Chess Nostalgia: 24,592 局 (0.17%)
Chessopolis: 123 局 (<0.01%)
Games Of GMs: 62 局 (<0.01%)

使用方法

数据集主要用于训练机器学习模型，也可用于数据分析或可视化。可通过 Hugging Face 库直接加载数据集。

示例

提供了一个包含日期、玩家ELO、游戏结束方式、胜者、标准记谱法、UCI记谱法和自定义记谱法的完整游戏记录示例。

致谢

Angel Uriot: 项目创建者
Lumbras Giga Base: 数据集游戏收集者
所有原始游戏来源
数据集中所有玩家

搜集汇总

数据集介绍

构建方式

该国际象棋对局数据集的构建基于从多个高级别国际象棋比赛源收集的数据，包括Lichess Elite Database、Lumbras Giga Base、PGN Mentor等。这些数据源提供了超过1400万场高级别玩家之间的对局，涵盖了从1600年到2024年的比赛。数据集通过整合这些来源的信息，形成了包含12亿次棋步的庞大集合，每条记录详细记录了比赛日期、玩家ELO评分、比赛结果、棋步的标准代数表示法（SAN）、通用国际象棋接口（UCI）以及自定义棋步表示法。

特点

该数据集的显著特点在于其广泛的时间跨度和高质量的对局数据。数据集包含了从1600年到2024年的比赛，其中大部分对局发生在近期，平均玩家ELO评分为2388，显示出极高的竞技水平。此外，数据集提供了多种棋步表示法，包括标准代数表示法、通用国际象棋接口以及自定义表示法，这为不同类型的数据分析和机器学习模型训练提供了灵活性。

使用方法

该数据集主要用于训练机器学习模型，以分析国际象棋对局模式和策略。使用者可以通过Hugging Face库直接加载数据集，安装datasets库后，使用load_dataset函数即可轻松访问。数据集的结构设计便于用户提取和分析对局信息，如棋步序列、玩家ELO评分等。此外，数据集的自定义棋步表示法为更复杂的数据处理和分析提供了便利。

背景与挑战

背景概述

国际象棋作为一项历史悠久的智力竞技活动，其复杂性和策略性吸引了无数研究者和爱好者。Chess games dataset由Angel Uriot创建，旨在为机器学习模型提供高质量的国际象棋对局数据。该数据集包含了1400万场高水平的国际象棋比赛，涵盖了从1600年到2024年的对局，主要研究人员或机构包括Lumbras Giga Base等。其核心研究问题是如何利用这些数据训练出能够理解和预测国际象棋对局的机器学习模型，这对国际象棋AI的发展具有重要意义。

当前挑战

Chess games dataset在构建过程中面临多项挑战。首先，数据集的规模庞大，处理和存储这些数据需要高效的计算资源和存储技术。其次，国际象棋对局的复杂性要求数据集必须包含详尽的对局信息，包括每一步棋的标准代数表示法（SAN）、通用国际象棋接口（UCI）以及自定义的棋步表示法，这增加了数据处理的复杂性。此外，数据来源的多样性也带来了数据一致性和质量控制的挑战。这些挑战不仅影响了数据集的构建，也对后续的模型训练和应用提出了高要求。

常用场景

经典使用场景

国际象棋对局数据集主要用于训练机器学习模型，以分析和预测棋局走势。通过该数据集，研究人员可以构建和优化棋局评估模型，从而提升计算机在国际象棋中的表现。此外，该数据集还可用于开发新的棋局策略和算法，为棋手提供更强大的对弈工具。

衍生相关工作

基于国际象棋对局数据集，许多相关研究和工作得以展开。例如，有研究利用该数据集开发了新的棋局评估模型，显著提升了计算机在国际象棋中的表现。此外，还有工作利用该数据集进行棋局策略分析，提出了新的开局和残局策略。这些衍生工作不仅丰富了国际象棋领域的研究内容，也为实际应用提供了有力支持。

数据集最近研究