chess-puzzles-with-games

Hugging Face2026-03-26 更新2026-03-27 收录

下载链接：

https://huggingface.co/datasets/Lichess/chess-puzzles-with-games

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为“Lichess Puzzles with Game Information”，主要包含国际象棋谜题及相关游戏信息。数据集规模在1百万到1千万条记录之间，适用于国际象棋分析、谜题解决算法训练等场景。数据集采用CC0 1.0许可协议，允许自由使用。需要注意的是，该数据集仍在开发中，未来可能会有重大变更。数据集由Marco Cognetta贡献，原始项目仓库可通过提供的链接访问。

创建时间：

2026-03-20

原始信息汇总

Lichess Puzzles with Game Information 数据集概述

数据集基本信息

数据集名称: Lichess Puzzles with Game Information
数据集地址: https://huggingface.co/datasets/Lichess/chess-puzzles-with-games
贡献者: Marco Cognetta
原始项目仓库: https://github.com/mcognetta/lichess-combined-puzzle-game-db
许可证: CC0 1.0
标签: chess, lichess, puzzles
数据规模: 1M < n < 10M
状态提示: 该数据集仍在开发中，可能会有重大变更。

数据集结构与规模

配置: default
数据分割: train
训练集样本数量: 2,969,886
训练集大小: 29,190,467,044 字节
下载大小: 18,911,082,313 字节
数据集总大小: 29,190,467,044 字节

数据特征字段

谜题核心信息

PuzzleId: 谜题唯一标识符
FEN: 棋局FEN字符串
Moves: 着法序列
Themes: 谜题主题列表
Rating: 谜题评分
RatingDeviation: 评分偏差
Popularity: 流行度
NbPlays: 对局次数

关联游戏信息

GameId: 游戏唯一标识符
pgn: 游戏PGN字符串
moves: 游戏着法序列
winner: 获胜方
status: 游戏状态
variant: 游戏变体
speed: 游戏速度类型
perf: 表现类型
tournament: 是否为锦标赛
swiss: 是否为瑞士制比赛
lastMoveAt: 最后着法时间戳
createdAt: 创建时间戳
analysis: 分析数据列表

游戏对局设置

clock: 时钟设置
- initial: 初始时间
- increment: 加时
- totalTime: 总时间

开局信息

ECO: 国际象棋百科全书分类代码
Opening: 开局名称
OpeningPly: 开局步数

棋手信息

白方

White: 白方用户名
WhiteTitle: 白方称号
WhiteRating: 白方评分
WhiteRatingDiff: 白方评分变化
WhiteProvisional: 白方是否为临时评分
WhiteAcpl: 白方平均中心损失
WhiteAccuracy: 白方准确度
WhiteMistake: 白方失误数
WhiteInaccuracy: 白方不精确着法数
WhiteBlunder: 白方严重失误数

黑方

Black: 黑方用户名
BlackTitle: 黑方称号
BlackRating: 黑方评分
BlackRatingDiff: 黑方评分变化
BlackProvisional: 黑方是否为临时评分
BlackAcpl: 黑方平均中心损失
BlackAccuracy: 黑方准确度
BlackMistake: 黑方失误数
BlackInaccuracy: 黑方不精确着法数
BlackBlunder: 黑方严重失误数

搜集汇总

数据集介绍

构建方式

在棋类人工智能研究领域，数据集的构建质量直接关系到模型训练的成效。该数据集源自国际象棋在线平台Lichess，通过整合其公开的谜题库与对应的完整对局记录而构建。具体而言，构建过程系统性地关联了每个棋局谜题（Puzzle）与其原始对局（Game）的详细信息，并利用平台提供的丰富元数据，如棋局状态（FEN）、着法序列（PGN）、玩家评级及对局分析等，形成了一个结构化的多维数据集。这一构建方式确保了数据的内在一致性与可追溯性，为深度分析棋局策略与玩家行为提供了坚实基础。

使用方法

对于旨在利用该数据集的研究者或开发者而言，其使用方法清晰而富有潜力。数据集以标准表格格式提供，可通过Hugging Face Datasets库直接加载与流式读取，便于进行大规模数据处理。典型应用路径包括：直接将其作为监督学习任务的训练数据，例如训练棋局评估函数或着法预测模型；亦可将其作为分析资源，用于探究特定战术主题（Themes）的出现规律、不同评级段玩家的失误模式，或开局与中局战术的关联性。由于数据包含精确的时间戳和玩家匿名ID，还支持纵向的行为序列分析。使用者需注意数据集的‘进行中’状态，并在处理时留意其CC0许可协议所允许的自由使用范围。

背景与挑战

背景概述

在国际象棋人工智能与棋艺分析领域，数据驱动的模型训练与评估依赖于高质量的棋局与战术组合信息。'chess-puzzles-with-games'数据集由贡献者Marco Cognetta基于Lichess开源平台构建，整合了海量实战棋局与对应的战术谜题，其核心研究问题聚焦于如何通过真实对弈数据深化对棋局动态、战术模式及玩家决策过程的理解。该数据集不仅为国际象棋引擎的强化学习提供了丰富的训练素材，亦为棋艺教学与认知科学研究开辟了新的数据途径，显著推动了棋类人工智能从静态局面评估向动态战术推理的演进。

当前挑战

该数据集旨在解决国际象棋战术识别与棋局动态评估的复杂问题，其挑战在于如何从海量对弈中精准提取具有教学意义的战术瞬间，并建立谜题与完整棋局间的语义关联。构建过程中，数据整合面临多重困难：原始棋局数据格式异构，需统一解析PGN记录并关联Lichess谜题数据库；战术主题标注依赖平台既有分类体系，可能存在主观性与覆盖不全的风险；同时，确保数据时序一致性、玩家评级准确性以及局面分析深度，均对数据清洗与特征工程提出了较高要求。

常用场景

经典使用场景

在国际象棋人工智能研究领域，chess-puzzles-with-games数据集为棋局分析与策略优化提供了丰富资源。该数据集整合了Lichess平台的海量实战棋局与对应谜题，包含完整的对局记录、棋手评级、开局分类及精确的走法分析。研究者能够利用这些结构化数据，深入探究棋局中的关键决策点，例如通过分析特定局面下的最优解，构建强化学习模型以模拟人类棋手的思维过程。这种基于真实对局的数据驱动方法，为国际象棋引擎的算法改进奠定了坚实基础。

解决学术问题

该数据集有效解决了国际象棋研究中长期存在的若干挑战。传统上，棋局分析依赖于有限的高水平对局记录，难以覆盖多样化的实战场景。本数据集通过百万级规模的实战棋局与谜题，提供了广泛的局面类型和难度分布，使得研究者能够系统性地研究棋手决策模式、评估算法性能，并检验开局理论的实战有效性。其丰富的元数据如评级偏差、主题标签和精确度指标，为量化分析棋手水平与棋局质量创造了条件，推动了国际象棋人工智能从理论模拟向实战验证的转变。

实际应用

在实际应用层面，chess-puzzles-with-games数据集已成为国际象棋教学工具与AI训练的核心数据源。教育平台利用其中的谜题与对应游戏历史，为不同水平的棋手提供个性化训练方案，通过分析常见错误模式来设计针对性练习。同时，该数据集支持开发更智能的国际象棋引擎，引擎能够从海量实战数据中学习人类棋手的精妙策略与常见陷阱，从而在实时对弈中提供更贴近实战的评估与建议。这种应用不仅提升了业余棋手的训练效率，也推动了职业级别AI辅助分析工具的发展。

数据集最近研究