chess-puzzles

Hugging Face2024-09-20 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Lichess/chess-puzzles

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含4,062,423个国际象棋谜题，每个谜题都有详细的评分和标签。数据集的创建过程包括从Lichess数据库中分析超过300,000,000个游戏，并使用Stockfish 12/13/14/15 NNUE在40 meganodes下重新分析有趣的位置。谜题通过自动标签系统进行标记，并使用Glicko-2评级系统进行评分。玩家投票进一步细化了标签并定义了谜题的受欢迎程度。数据集的每个条目包含谜题的唯一标识符、FEN字符串、解决方案、评分、评分偏差、受欢迎程度、播放次数、主题、游戏链接和开局标签。

This dataset contains 4,062,423 chess puzzles, each with detailed ratings and tags. The dataset creation process includes analyzing over 300 million games from the Lichess database, and reanalyzing interesting positions with Stockfish 12/13/14/15 NNUE at 40 meganodes. The puzzles are tagged via an automatic labeling system and rated using the Glicko-2 rating system. Player votes further refine the tags and define the puzzles' popularity. Each entry in the dataset includes the puzzle's unique identifier, FEN string, solution, rating, rating deviation, popularity, play count, themes, game links, and opening tags.

创建时间：

2024-09-19

原始信息汇总

Lichess Puzzles 数据集概述

数据集描述

该数据集包含4,062,423个国际象棋谜题，每个谜题都经过评分和标记。

数据集创建

生成这些国际象棋谜题耗费了超过50年的CPU时间。数据集从Lichess数据库中的300,000,000个分析过的对局中提取，并使用Stockfish 12/13/14/15 NNUE在40 meganodes下重新分析有趣的棋局。生成的谜题通过自动标记系统进行标记。每个谜题的评分是通过Glicko-2评级系统计算的，玩家的解题尝试被视为与谜题之间的Glicko-2评级对局。最后，玩家的投票进一步细化了标签并定义了谜题的受欢迎程度。

数据集使用

使用datasets库加载数据集的示例代码如下：

python from datasets import load_dataset dset = load_dataset("Lichess/chess-puzzles", split="train")

数据集详情

数据集样本

数据集中的一行数据示例如下：

python { PuzzleId: 0009B, FEN: r2qr1k1/b1p2ppp/pp4n1/P1P1p3/4P1n1/B2P2Pb/3NBP1P/RN1QR1K1 b - - 1 16, Moves: b6c5 e2g4 h3g4 d1g4, Rating: 1112, RatingDeviation: 74, Popularity: 87, NbPlays: 569, Themes: advantage middlegame short, GameUrl: https://lichess.org/4MWQCxQ6/black#31, OpeningTags: Kings_Pawn_Game Kings_Pawn_Game_Leonardis_Variation }

数据集字段

数据集中的每一行包含以下字段：

PuzzleId: string，谜题的唯一标识符。谜题的链接为https://lichess.org/training/{PuzzleID}。
FEN: string，对手移动前的棋局FEN字符串。
Moves: string，谜题的解决方案。所有玩家的移动都是“唯一移动”，即任何其他移动都会显著恶化玩家的位置。对于一步将杀的情况，可以有多个移动。任何将杀的移动都应该赢得谜题。
Rating: int，谜题的Glicko-2评分。
RatingDeviation: int，谜题的Glicko-2评分偏差。
Popularity: int，一个介于100（最佳）和-100（最差）之间的数字，计算公式为100 * (upvotes - downvotes)/(upvotes + downvotes)。投票的权重取决于谜题是否被成功解决以及解题者的谜题评分与谜题评分的比较。
NbPlays: int，谜题被玩过的次数。
Themes: string，谜题主题的空格分隔列表。
GameUrl: string，谜题提取自的具体对局和移动的链接。
OpeningTags: string，开局标签的空格分隔列表。仅在谜题开始于第20步之前时设置。

附加信息

所有可能的谜题主题及其描述的列表：puzzleTheme.xml
更好地理解谜题主题的研究：https://lichess.org/study/viiWlKjv
GitHub仓库：https://github.com/lichess-org/database
官方网站：https://database.lichess.org/#puzzles
所有可能的开局列表：https://github.com/lichess-org/chess-openings
2020年引入新谜题的博客文章：blog/new-puzzles-are-here
2021年分析Lichess谜题使用的博客文章：blog/some-puzzling-analysis

搜集汇总

数据集介绍

构建方式

Lichess Puzzles数据集的构建过程体现了大规模计算与深度分析的结合。通过对Lichess数据库中超过3亿局棋局的分析，利用Stockfish 12/13/14/15 NNUE引擎在40兆节点下重新评估了其中的关键局面，生成了超过455万道国际象棋谜题。每道谜题均通过自动化标签系统进行分类，并通过Glicko-2评分系统对谜题难度进行动态调整。玩家对谜题的尝试被视为与谜题之间的评分对局，进一步优化了谜题的难度和标签。

特点

该数据集包含455万道国际象棋谜题，每道谜题均附有详细的元数据，包括FEN字符串、解法走法、Glicko-2评分、评分偏差、流行度、尝试次数、主题标签以及相关棋局链接。谜题的主题标签涵盖了多种国际象棋战术和局面类型，如优势、中局、短局等。此外，数据集还提供了开局标签，便于用户从开局阶段进行针对性训练。数据集每月更新，确保了内容的时效性和多样性。

使用方法

用户可通过`datasets`库轻松加载Lichess Puzzles数据集。加载后，数据集以表格形式呈现，每行代表一道谜题，包含PuzzleId、FEN、解法走法、评分等字段。用户可根据需求筛选特定难度、主题或开局的谜题进行训练或研究。此外，数据集中的GameUrl字段可直接链接到Lichess平台上的原始棋局，便于用户进一步分析棋局背景。通过结合数据集提供的丰富元数据，用户能够深入探索国际象棋战术的多样性与复杂性。

背景与挑战

背景概述

Lichess Puzzles数据集由Lichess团队于2020年推出，旨在为国际象棋爱好者提供高质量的训练资源。该数据集包含超过455万条国际象棋谜题，每条谜题均经过精心筛选和评级，涵盖了从开局到残局的多种主题。这些谜题源自Lichess平台上的300,000,000局对局，并通过Stockfish引擎进行深度分析，耗时超过50年CPU时间。数据集的创建不仅为棋手提供了丰富的训练素材，还推动了国际象棋人工智能领域的研究，特别是在棋局分析和自动化谜题生成方面。

当前挑战

Lichess Puzzles数据集在构建过程中面临多重挑战。首先，从海量对局中筛选出具有教育意义的谜题需要极高的计算资源和时间成本，尤其是使用Stockfish引擎进行深度分析时。其次，谜题的自动标注和评级系统需要兼顾准确性和公平性，确保每个谜题的难度和主题能够真实反映其训练价值。此外，数据集的持续更新和维护也带来了挑战，尤其是在处理用户反馈和优化谜题质量方面。最后，如何将数据集广泛应用于国际象棋教学和AI训练，仍需进一步探索和优化。

常用场景

经典使用场景

Lichess Puzzles数据集在棋类研究领域具有广泛的应用，尤其是在国际象棋战术训练和算法开发中。研究者可以利用该数据集中的大量棋局谜题，分析不同战术主题下的最佳走法，帮助棋手提升战术意识和计算能力。此外，该数据集还为国际象棋AI的训练提供了丰富的素材，使得AI能够在复杂的棋局中做出更优的决策。

解决学术问题

Lichess Puzzles数据集解决了国际象棋战术分析中的多个学术问题。通过提供详细的棋局信息和战术标签，研究者可以深入探讨特定战术主题的胜率、流行度及其对棋局结果的影响。此外，数据集中的Glicko-2评分系统为棋局难度的量化提供了科学依据，使得研究者能够更精确地评估棋手的战术水平。

衍生相关工作

Lichess Puzzles数据集衍生了许多经典的研究工作，尤其是在国际象棋AI和战术分析领域。例如，基于该数据集的研究成果被用于开发更强大的国际象棋引擎，如Stockfish的后续版本。此外，许多关于战术主题和棋局难度的研究也依赖于该数据集，进一步推动了国际象棋战术理论的发展。

以上内容由遇见数据集搜集并总结生成