LichessParsed
收藏Hugging Face2025-08-10 更新2025-08-11 收录
下载链接:
https://huggingface.co/datasets/mkrum/LichessParsed
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了棋类比赛的详细信息,包括比赛事件、地点、白方和黑方的姓名、比赛结果、棋手的称号、棋手的Elo评分、评分差异、比赛日期和时间、棋类编码(ECO)、开局名称、终止局面、时间控制、移动文本、棋盘状态和移动步骤等。数据集分为训练集,可用于机器学习模型的训练。
创建时间:
2025-08-09
原始信息汇总
LichessParsed数据集概述
数据集基本信息
- 数据集名称: LichessParsed
- 存储位置: https://huggingface.co/datasets/mkrum/LichessParsed
- 下载大小: 1,216,749,407字节
- 数据集大小: 8,346,044,093字节
- 训练集样本数: 2,739,909个
- 训练集大小: 8,346,044,093字节
数据集特征
- Event: 比赛事件名称(字符串类型)
- Site: 比赛地点(字符串类型)
- White: 白方选手名称(字符串类型)
- Black: 黑方选手名称(字符串类型)
- Result: 比赛结果(字符串类型)
- WhiteTitle: 白方选手头衔(字符串类型)
- BlackTitle: 黑方选手头衔(字符串类型)
- WhiteElo: 白方选手ELO等级分(int16类型)
- BlackElo: 黑方选手ELO等级分(int16类型)
- WhiteRatingDiff: 白方选手等级分变化(int16类型)
- BlackRatingDiff: 黑方选手等级分变化(int16类型)
- UTCDate: 比赛日期(date32类型)
- UTCTime: 比赛时间(time32[ms]类型)
- ECO: 国际象棋开局分类编码(字符串类型)
- Opening: 开局名称(字符串类型)
- Termination: 比赛结束方式(字符串类型)
- TimeControl: 时间控制设置(字符串类型)
- movetext: 走棋文本(字符串类型)
- board: 棋盘状态(字符串类型)
- move: 走棋信息(字符串类型)
数据分割
- 训练集: 包含2,739,909个样本,数据文件路径为
data/year=2020/month=10/train-*
搜集汇总
数据集介绍

构建方式
LichessParsed数据集源于国际象棋在线平台Lichess的实战对局记录,通过系统化的数据采集与解析流程构建而成。该数据集以2020年11月为时间切片,采用分布式存储架构将原始PGN格式棋局数据转化为结构化字段,包含对局元数据、棋手信息、棋步序列等21个特征维度。数据清洗过程中保留了完整的棋局动态记录,特别是创新性地将棋盘状态序列与走棋动作分离存储,为棋局动态分析提供了双重视角。
特点
作为国际象棋领域的高质量实战数据集,其显著特征体现在多维度的棋局表征体系。除常规的棋手等级分、开局分类等静态数据外,独特设计了动态棋盘状态编码和走棋文本的双轨记录模式。数据集覆盖310万局真实对弈,包含职业棋手与业余爱好者的完整交互轨迹,Elo评分差值等字段为棋力评估研究提供了量化基础。时间戳精确到毫秒的UTC记录则支持对弈行为的时间序列分析。
使用方法
该数据集适用于国际象棋AI训练、开局库构建及棋手行为分析等多场景研究。使用时可基于时间分区加载特定月份数据,通过解析board字段重建棋盘状态演变,或利用movetext字段进行棋步序列建模。机器学习应用中建议将WhiteElo与BlackElo作为基准特征,结合ECO开局编码构建分类模型的标签体系。分布式存储结构支持并行读取,大规模训练时可按UTCDate实现分片处理。
背景与挑战
背景概述
LichessParsed数据集源于国际象棋在线平台Lichess的海量对局数据,由平台用户自发贡献并经过系统化整理而成。该数据集收录了2020年11月期间超过310万盘对局的详细记录,包含棋手信息、对局结果、开局分类、走棋文本等20个结构化字段。作为开源棋类数据分析的重要资源,其为计算机博弈论、人工智能棋类算法、玩家行为分析等研究提供了高质量的基准数据。数据集采用分布式存储架构,原始数据经过清洗和标准化处理,确保了研究结果的可靠性和可复现性。
当前挑战
该数据集面临的核心挑战主要体现在两个方面:在领域问题层面,如何从海量走棋序列中提取有效特征以预测棋局走势,需要解决高维离散动作空间的建模难题;同时,非平衡的棋手等级分布对构建普适性强的评级系统提出挑战。在构建过程层面,原始日志数据存在异构时间戳格式、不完整的棋手信息等数据质量问题;实时对局产生的流式数据要求设计高效的分布式处理框架,以应对TB级数据的解析和存储压力。
常用场景
经典使用场景
在国际象棋研究领域,LichessParsed数据集提供了丰富的棋局记录和玩家信息,为分析棋手策略、评估系统设计以及棋局动态演变提供了重要基础。研究者可以通过该数据集深入挖掘棋手行为模式,探索开局库优化,以及构建智能评估模型。
衍生相关工作
围绕LichessParsed数据集,研究者们开发了多种国际象棋AI模型和分析工具。经典工作包括基于深度学习的棋局预测模型、动态评分系统优化算法,以及棋局风格分类器,这些成果显著推动了国际象棋智能化研究的进展。
数据集最近研究
最新研究方向
在人工智能与博弈论交叉领域,LichessParsed数据集正推动着国际象棋策略分析的革新。该数据集收录了海量对局记录,包含棋手评级、开局分类及走棋序列等关键特征,为构建深度强化学习模型提供了丰富素材。研究者们正探索如何利用transformer架构解析movetext字段中的复杂棋步模式,进而预测职业选手的决策路径。2023年ChessGPT等项目的突破表明,此类数据在模拟人类直觉与机器计算的博弈平衡点方面具有独特价值,其时间戳与评级变化数据更为棋手表现追踪提供了纵向研究基础。
以上内容由遇见数据集搜集并总结生成



