Chess Data
收藏github2025-03-03 更新2025-03-04 收录
下载链接:
https://github.com/HKUNLP/DiffuSearch
下载链接
链接失效反馈官方服务:
资源简介:
用于训练和评估棋类游戏模型的棋局数据集,包含了约656k条训练记录和约62k条测试记录。
A dataset of board game positions for training and evaluating game-playing AI models, containing approximately 656,000 training samples and 62,000 test samples.
创建时间:
2025-02-28
原始信息汇总
Implicit Search via Discrete Diffusion: A Study on Chess 数据集概述
数据集简介
- 数据集名称:Implicit Search via Discrete Diffusion: A Study on Chess
- 研究目标:提出DiffuSearch方法,通过离散扩散模型增强大型语言模型的规划能力,无需依赖显式搜索方法如MCTS。
- 应用领域:国际象棋领域。
数据集构成
- 训练数据:10k场训练游戏(约656k条记录)。
- 测试数据:1k场测试游戏(约62k条记录)。
- 数据格式:压缩文件
data.zip,解压后放置于./data目录。 - 数据来源:数据集也上传至Huggingface datasets,链接为https://huggingface.co/datasets/jiacheng-ye/chess10k。
使用说明
- 训练命令:
bash scripts/train-ddm-s_asa.sh - 在线体验:无需训练,可通过https://lichess.org/@/diffusearchv0注册lichess账户开始游戏。
数据集引用
@article{ye2025implicit, title={Implicit Search via Discrete Diffusion: A Study on Chess}, author={Ye, Jiacheng and Wu, Zhenyu and Gao, Jiahui and Wu, Zhiyong and Jiang, Xin and Li, Zhenguo and Kong, Lingpeng}, journal={arXiv preprint arXiv:2502.19805}, year={2025} }
搜集汇总
数据集介绍

构建方式
Chess Data数据集的构建,是基于对大规模棋局的分析与整合。研究者们采用了100k个棋局数据进行训练,通过离散扩散模型,实现了对未来状态的预测,以此来增强大型语言模型的规划能力,无需依赖如MCTS等显式搜索方法。
特点
该数据集的特点在于,它不仅包含大量的棋局数据,还通过DiffuSearch方法实现了隐式搜索,提升了动作准确性及Elo评分。此外,数据集在huggingface datasets上也有上传,方便研究者们获取和使用。
使用方法
使用Chess Data数据集,研究者需要先配置相应环境,安装必要的依赖包。之后,可以通过运行训练脚本对模型进行训练和评估。若仅想体验DiffuSearch,可以直接在lichess平台上注册账号进行对弈。
背景与挑战
背景概述
Chess Data数据集源自于对大型语言模型在棋类游戏中的规划能力研究,该研究由Ye, Jiacheng等研究人员发起,并于2025年发表在arXiv预印本上。该数据集的核心研究问题是探索如何通过离散扩散模型增强大型语言模型的规划能力,而不依赖于诸如MCTS之类的显式搜索方法。通过在棋类游戏——国际象棋中的应用,该研究对相关领域产生了显著影响,为棋类游戏的策略研究提供了新的视角和数据支持。
当前挑战
该数据集在构建过程中所遇到的挑战主要包括:首先,如何精确捕捉和表示棋类游戏中的未来状态,以进行有效的未来信息收集;其次,如何在大量棋局数据中训练出能够显著提高行动准确性和Elo评级的模型。此外,尽管DiffuSearch模型在一定程度上取得了成功,但仍弱于当前最先进水平的国际象棋程序,如Lc0或Stockfish,这表明模型训练数据的进一步增加和优化是提升模型性能的关键挑战。
常用场景
经典使用场景
在人工智能棋类研究领域,Chess Data数据集的应用尤为显著。该数据集支撑了DiffuSearch模型的训练与评估,DiffuSearch是一种无需依赖显式搜索方法如MCTS来增强大型语言模型规划能力的新型方法。通过利用离散扩散模型,DiffuSearch在棋类游戏中,如国际象棋,实现了对未来状态的隐式搜索。
实际应用
实际应用中,Chess Data数据集的应用促进了DiffuSearch在国际象棋游戏中的运用,该模型能够在lichess平台上与人类玩家对弈。尽管其水平尚未达到最先进棋类程序的高度,但已经能够战胜初学者级别的玩家,预示着随着更多训练数据的引入,其棋力将得到进一步提升。
衍生相关工作
基于Chess Data数据集的研究衍生出了对DiffuSearch模型进一步优化和训练的工作。这些相关工作不仅关注模型在棋类游戏中的表现,还致力于探索离散扩散模型在其他领域的潜在应用,如决策制定、策略学习等。
以上内容由遇见数据集搜集并总结生成



