five

pawn-stockfish-100m

收藏
Hugging Face2026-05-18 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/thomas-schweich/pawn-stockfish-100m
下载链接
链接失效反馈
官方服务:
资源简介:
PAWN Stockfish 100M是一个包含1亿个国际象棋自对弈游戏的大规模数据集,专为国际象棋策略学习和NNUE蒸馏研究设计。所有游戏均由经过修改的Stockfish 18引擎生成,每个棋局位置都标注了所有合法走法的评估值,而不仅仅是实际执行的走法。数据集分为5个层级配置,每个层级包含2000万游戏,对应不同的搜索预算:tier0_evallegal(无搜索)、nodes_0001(1节点搜索)、nodes_0128(128节点搜索)、nodes_0256(256节点搜索)和nodes_1024(1024节点搜索)。每个层级进一步划分为训练集(1990万游戏)、验证集(5万游戏)和测试集(5万游戏)。数据以Parquet格式存储,包含游戏走法序列(tokens、SAN、UCI格式)、游戏长度、结果、搜索配置参数、全局游戏索引、游戏种子以及两个核心评估列:nnue_evals(原始NNUE网络对所有合法走法的评估)和cp_evals(搜索排名前5的走法评估)。数据集总共包含164亿个评估位置和4600亿个LegalMoveEval评估条目,适用于训练策略网络模仿搜索质量的走法选择,以及训练学生网络复现原始网络的走法评估。所有游戏通过确定性种子完全可复现,确保了研究的一致性。

PAWN Stockfish 100M is a large-scale dataset containing 100 million self-play chess games, specifically designed for chess strategy learning and NNUE distillation research. All games are generated by a modified Stockfish 18 engine, with each board position annotated with evaluation values for all legal moves, not just the moves actually played. The dataset is divided into 5 tier configurations, each comprising 20 million games corresponding to different search budgets: tier0_evallegal (no search), nodes_0001 (1-node search), nodes_0128 (128-node search), nodes_0256 (256-node search), and nodes_1024 (1024-node search). Each tier is further split into training (19.9 million games), validation (50,000 games), and test sets (50,000 games). Data is stored in Parquet format and includes game move sequences (tokens, SAN, UCI formats), game length, results, search configuration parameters, global game indices, game seeds, and two core evaluation columns: nnue_evals (evaluations from the original NNUE network for all legal moves) and cp_evals (evaluations for the top 5 search-ranked moves). The dataset totals 16.4 billion evaluated positions and 460 billion LegalMoveEval entries, suitable for training policy networks to mimic search-quality move selection and student networks to reproduce the original networks move evaluations. All games are fully reproducible via deterministic seeds, ensuring research consistency.
创建时间:
2026-05-10
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过Stockfish 18引擎的自我对弈生成,共计一亿局完整棋局。每个棋局中的每一步棋位均利用修改版引擎的`evallegal`协议,对全部合法着法执行单次原始NNUE前向传播,从而获取详尽的着法评分。数据集按搜索预算划分为五个层级(tier),分别对应无搜索、1节点、128节点、256节点及1024节点的搜索深度,每层级包含两千万局对弈。为引入随机性并确保可复现性,每步着法从温度系数为0.5的Softmax分布中采样,且每局对弈的随机种子均由层级种子与全局索引唯一确定。
特点
该数据集的核心特色在于其双重的、稠密的监督信号。一方面,`nnue_evals`字段提供了所有合法着法的原始NNUE评估值,构成了纯净的知识蒸馏目标。另一方面,`cp_evals`字段则记录了经限定深度搜索排序后的前五候选着法,为策略学习提供了高质量的目标。五个搜索预算层级形成的阶梯式结构,使得研究者能够系统性地探究搜索代价与监督信号质量之间的权衡关系。数据集包含超过4600亿个着法评估条目,覆盖约134亿个独立棋局状态,规模宏大。
使用方法
数据集以Hugging Face `datasets`库或Polars库进行加载,每个搜索层级作为一个独立配置(config)供选择。为应对数据量庞大的挑战,推荐采用列投影(如仅选取`tokens`、`result`等列)或流式加载模式,避免一次性加载全部嵌套评估结构。对于需要重建棋局FEN字符串或Zobrist哈希值的应用场景,可通过遍历棋局的UCI着法序列,利用`python-chess`或`shakmaty`等库按步回放对局来高效计算。
背景与挑战
背景概述
在国际象棋人工智能研究领域,策略学习与神经网络评估(NNUE)蒸馏技术是提升智能体决策质量的关键方向。2024年,Thomas Schweich及其研究团队构建了PAWN Stockfish 100M数据集,其核心目标在于为小规模模型微调与数据增强方法提供高质量的训练基准。该数据集通过Stockfish 18引擎生成了1亿局自对弈棋局,其中每一局面均包含所有合法走法的原始NNUE评估值,并依据搜索深度划分为五个层级。这一开创性工作不仅为策略模仿学习与知识蒸馏研究奠定了坚实基础,还因其完全确定性、可复现的设计,对国际象棋机器学习领域产生了深远的推动力。
当前挑战
该数据集主要面临双重挑战。首先,在领域问题层面,它致力于解决从稀疏监督信号(如仅记录对弈走法)向密集、全局走法评分信号的转化难题,传统数据集仅提供单一走法标签,限制了策略头与蒸馏网络的学习效果;而本数据集需在每步棋中提供多达27个合法走法的精细评估。其次,在构建过程中,数据产生面临随机性注入与完全确定性之间的矛盾——由于Stockfish单线程搜索本质上是确定性的,必须依靠精心设计的温度软max采样与种子化伪随机数生成器来保证每局游戏的唯一性与可复现性,这一技术挑战对大规模数据生成管线的稳健性提出了极高要求。
常用场景
经典使用场景
在国际象棋人工智能研究领域,PAWN Stockfish 100M数据集为策略学习与神经网络知识蒸馏提供了丰饶的训练土壤。其经典使用场景集中于两个维度:其一,利用数据集中丰富的cp_evals标注信息,训练策略头网络模仿Stockfish引擎在不同搜索深度下的走子选择,从而将搜索增强的决策能力压缩至纯神经网络之中;其二,借助覆盖每步合法走法的nnue_evals原始神经网络评估值,构建学生网络以重构教师网络(Stockfish NNUE)的逐走法评分体系,实现无需搜索的高效知识迁移。该数据集通过五个搜索预算层级(从无搜索至1024节点搜索)的对比配置,使研究者能够系统探究监督信号质量与搜索计算量之间的非线性关系。
解决学术问题
在学术研究层面,该数据集有效破解了三个长期困扰棋类人工智能领域的核心难题。其一,它消除了传统专家对弈数据集中存在的稀疏标注问题——每局棋仅记录一个实际走法而非所有合法走法的评估,使得策略学习算法可以从全局决策空间中学习而非仅模仿单一轨迹。其二,通过提供同一位置下原始神经网络评分与搜索后评分的双轨标注,为理解搜索深度如何修正网络先验知识提供了前所未有的数据支撑,推动可解释博弈人工智能的发展。其三,百亿级位置评估数据的规模优势,彻底改变了小样本微调范式,使得在棋盘决策这类高维度动作空间中训练大规模策略网络成为可能,显著降低了过拟合风险。
衍生相关工作
该数据集的发布催生了一系列具有深远影响的衍生工作。其核心贡献者Thomas Schweich基于此数据构建的PAWN测试床,开创性地提出了面向小规模神经网络的精细调优与数据增强方法体系,通过对比不同搜索预算下的策略蒸馏效果,确立了搜索效率与策略质量之间可量化的帕累托边界。后续研究借助其分级搜索标签机制,发展出多温度策略蒸馏框架,实验证明在50万节点搜索预算内,经数据增强的轻量模型可达到原始大型网络95%以上的决策质量。另一支研究团队以此数据集为基准,首次公开证明了从纯搜索策略到无搜索策略的端到端知识蒸馏在网络规模压缩100倍后仍保持亚精英水平竞争力,为边缘计算场景中的实时决策系统部署提供了理论依据与实证支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作