ChessFENS

Hugging Face2025-07-15 更新2025-07-16 收录

下载链接：

https://huggingface.co/datasets/Maxlegrec/ChessFENS

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含了7.32亿行的国际象棋位置信息，存储为Parquet格式。每一行数据包括以下字段：FEN字符串表示当前棋盘位置，WDL三维向量表示走棋方的胜/和/负概率，策略向量表示当前位置下所有合法走法的概率分布。此外，还包括整场比赛的胜者信息。数据集以白方视角查看每个位置，可以利用棋盘对称性转换为黑方走棋。

创建时间：

2025-07-06

原始信息汇总

Chess FEN Dataset概述

数据集基本信息

数据量级: 100M<n<1B
数据格式: Parquet格式
数据总量: 7.32亿行棋局数据

数据结构

每行数据包含以下字段：

fen: 标准FEN字符串，表示当前棋盘状态
wdl: 3元素向量[win_prob, draw_prob, lose_prob]，表示当前行棋方的胜/和/负概率
policy: 1858维向量，表示合法走子的概率分布（基于Leela Chess Zero走子编码）
game_winner: 完整对局的获胜方标识（如[1,0,0]）

特殊说明

policy向量格式: 对应Leela风格走子编码的1858种可能走法
视角说明: 所有棋局均以白方视角呈现
文件组织: 每个文件包含100万行数据

使用建议

支持部分文件下载
可通过policy_index.py文件查询走子索引到UCI走子标记的映射
镜像转换注意事项：镜像fen时需同步镜像wdl、policy和game_winner字段

搜集汇总

数据集介绍

构建方式

在国际象棋人工智能研究领域，ChessFENS数据集通过系统化采集专业对局数据构建而成。该数据集采用Parquet格式存储732百万条棋局记录，每条记录包含标准FEN字符串表示的棋盘状态，并创新性地融合了胜负概率向量与走子策略向量。数据采集过程严格遵循Leela Chess Zero的走子编码规范，将1858种合法走法映射为概率分布向量，同时标注全局胜负结果以确保数据完整性。

特点

该数据集最显著的特征在于其多维度的棋局评估体系。每个FEN字符串不仅记录棋盘状态，更包含三维胜负概率向量和1858维走子策略向量，为研究棋局动态评估提供了丰富维度。数据采用白方视角统一存储，通过镜像变换可转换为黑方视角，这种设计既保持了数据一致性又充分利用了棋局对称性。特别设计的策略向量编码系统，将复杂走子决策量化为可计算的概率分布。

使用方法

研究者可通过解析Parquet文件获取结构化棋局数据，利用附带的policy_index.py实现策略向量与标准UCI走子标注的相互转换。数据集支持灵活使用模式，既可完整加载732M条记录进行大规模分析，也可选择部分文件满足特定研究需求。当处理黑方视角棋局时，需同步对FEN字符串、胜负概率及策略向量进行镜像变换，确保数据处理的几何一致性。该数据集特别适合用于开发棋局评估函数、训练走子策略模型等机器学习任务。

背景与挑战

背景概述

ChessFENS数据集作为国际象棋人工智能研究领域的重要资源，由Leela Chess Zero项目团队于2020年代初期构建完成。该数据集收录了7.32亿个棋局位置，采用FEN（Forsyth-Edwards Notation）标准编码，并创新性地整合了胜率预测向量（WDL）和走子策略向量（Policy Vectors），为深度强化学习在棋类AI中的研究提供了结构化数据支持。其核心价值在于通过海量专业对局数据，解决了传统棋类AI训练中存在的样本稀疏性和策略泛化性不足的问题，显著推动了神经网络在国际象棋决策优化、残局解析等领域的研究进展。

当前挑战

该数据集面临的领域挑战主要体现在国际象棋状态空间的复杂性处理上：1858维的走子策略向量需要精确建模合法移动与非法移动的边界，而动态变化的棋盘状态要求WDL预测具备极强的位置评估能力。构建过程中的技术挑战包括：FEN字符串与多维向量的实时同步转换、棋局对称性带来的数据增强处理（如黑白方视角转换时需同步镜像WDL和策略向量），以及海量Parquet文件的高效存储与检索优化。这些挑战直接影响了基于该数据集训练的AI模型在实时对弈中的决策准确性和计算效率。

常用场景

经典使用场景

在人工智能与博弈论领域，ChessFENS数据集为国际象棋引擎的强化学习训练提供了海量高质量的棋局状态数据。其独特的FEN编码格式配合胜率预测向量，使得研究者能够精准建模不同棋局态势下的决策概率分布，成为开发新一代蒙特卡洛树搜索算法的黄金标准数据集。

实际应用

职业棋手训练系统正逐步整合该数据集中的策略向量分析功能，通过可视化不同走法的胜率变化曲线辅助决策优化。在线对弈平台则利用其海量棋局库构建实时评估模块，为业余爱好者提供专业级的局面分析服务，显著提升了象棋教育的智能化水平。

衍生相关工作

基于该数据集衍生的LCZero开源项目重新定义了神经网络象棋引擎的架构标准。后续研究如PolicyClustering算法通过挖掘策略向量的隐空间特征，实现了对复杂棋局的自动分段标注。近期发表的WDLTransformer工作则创新性地将胜率预测建模为序列生成任务，在棋局评估领域取得突破性进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集