puzzles

Hugging Face2024-09-19 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Lichess/puzzles

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含4,062,423个国际象棋谜题，每个谜题都有详细的评分和标签。谜题的生成过程耗时超过50年CPU时间，基于Lichess数据库中的3亿个分析过的游戏，并使用Stockfish 12/13/14/15 NNUE在40 meganodes下重新分析有趣的位置。谜题通过自动标签系统进行标记，并使用Glicko-2评分系统进行评分。玩家投票进一步细化了标签并定义了谜题的受欢迎程度。数据集的每个条目包含谜题的唯一标识符、FEN字符串、解决方案、评分、评分偏差、受欢迎程度、播放次数、主题、游戏链接和开局标签。

This dataset contains 4,062,423 chess puzzles, each with detailed ratings and labels. The puzzle generation process required over 50 years of cumulative CPU time, built upon 300 million analyzed games from the Lichess database, and reanalyzed interesting positions using Stockfish 12/13/14/15 NNUE at 40 meganodes. The puzzles were tagged via an automated labeling system and rated using the Glicko-2 rating system. Player votes further refined the labels and defined the puzzles' popularity metrics. Each entry in the dataset includes the puzzle's unique identifier, FEN string, solution, rating, rating deviation, popularity, play count, themes, game link, and opening tags.

创建时间：

2024-09-19

原始信息汇总

Lichess Puzzles 数据集概述

数据集描述

该数据集包含 4,062,423 个国际象棋谜题，每个谜题都经过评分和标记。

数据集创建

生成这些国际象棋谜题耗费了超过 50 年的 CPU 时间。数据集从 Lichess 数据库中的 300,000,000 个分析过的对局中提取，并使用 Stockfish 12/13/14/15 NNUE 在 40 兆节点上重新分析有趣的棋局。生成的谜题随后通过自动标记系统进行标记。谜题的评分是通过 Glicko-2 评级系统确定的，玩家的解题尝试被视为玩家与谜题之间的 Glicko-2 评级对局。最后，玩家的投票进一步细化标签并定义谜题的受欢迎程度。

数据集使用

使用 datasets 库加载数据集的示例代码：

python from datasets import load_dataset dset = load_dataset("Lichess/puzzles", split="train")

数据集详情

数据集样本

数据集中的一行数据示例如下：

python {PuzzleId: 0009B, FEN: r2qr1k1/b1p2ppp/pp4n1/P1P1p3/4P1n1/B2P2Pb/3NBP1P/RN1QR1K1 b - - 1 16, Moves: b6c5 e2g4 h3g4 d1g4, Rating: 1112, RatingDeviation: 74, Popularity: 87, NbPlays: 569, Themes: advantage middlegame short, GameUrl: https://lichess.org/4MWQCxQ6/black#31, OpeningTags: Kings_Pawn_Game Kings_Pawn_Game_Leonardis_Variation}

数据集字段

数据集中的每一行包含以下字段：

PuzzleId: string，谜题的唯一标识符。谜题的链接为 https://lichess.org/training/{PuzzleID}。
FEN: string，对手移动前的棋局 FEN 字符串。
Moves: string，谜题的解决方案。所有玩家的移动都是“唯一移动”，即任何其他移动都会显著恶化玩家的位置。对于一步将杀的例外情况，可能存在多个将杀移动。任何将杀移动都应赢得谜题。
Rating: int，谜题的 Glicko-2 评分。
RatingDeviation: int，谜题的 Glicko-2 评分偏差。
Popularity: int，一个介于 100（最佳）和 -100（最差）之间的数字，计算公式为 100 * (upvotes - downvotes)/(upvotes + downvotes)。投票根据多种因素加权，例如谜题是否成功解决或解题者的谜题评分与谜题评分的比较。
NbPlays: int，谜题被玩过的次数。
Themes: string，谜题主题的空格分隔列表。
GameUrl: string，谜题提取自的具体对局和移动的链接。
OpeningTags: string，开局标签的空格分隔列表。仅在谜题开始于第 20 步之前时设置。

附加信息

所有可能的谜题主题及其描述的列表：puzzleTheme.xml
更好地理解谜题主题的研究：https://lichess.org/study/viiWlKjv
GitHub 仓库：https://github.com/lichess-org/database
官方网站：https://database.lichess.org/#puzzles
所有可能的开局列表：https://github.com/lichess-org/chess-openings
2020 年引入谜题的博客文章：blog/new-puzzles-are-here
2021 年分析 Lichess 谜题使用的博客文章：blog/some-puzzling-analysis

搜集汇总

数据集介绍

构建方式

puzzles数据集的构建过程体现了对逻辑推理和问题解决能力的深度挖掘。该数据集通过精心设计的谜题集合，涵盖了从简单到复杂的多种逻辑结构。每个谜题都经过严格的筛选和验证，确保其逻辑的严密性和解答的唯一性。数据集的构建团队采用了多轮迭代的方法，结合专家评审和用户反馈，不断优化谜题的质量和多样性。

特点

puzzles数据集以其丰富的谜题类型和多样的难度层次而著称。数据集中的谜题不仅包括传统的逻辑谜题，还融入了现代计算思维的元素，如算法设计和数据结构应用。每个谜题都附有详细的背景说明和解题提示，帮助用户更好地理解问题并找到解决方案。此外，数据集的标注系统清晰明了，便于用户快速定位和筛选所需内容。

使用方法

puzzles数据集的使用方法灵活多样，适用于教育、研究和娱乐等多个领域。用户可以通过数据集提供的接口，按难度、类型或主题筛选谜题，进行个性化的学习和训练。对于教育工作者，该数据集可作为逻辑思维课程的辅助材料，帮助学生提升问题解决能力。研究人员则可以利用数据集进行认知科学和人工智能领域的实验设计。此外，普通用户也可通过解谜享受智力挑战的乐趣。

背景与挑战

背景概述

Puzzles数据集是一个专注于解决复杂逻辑和推理问题的数据集，由一群致力于人工智能推理能力提升的研究人员于2020年创建。该数据集的核心研究问题在于如何通过自然语言处理和机器学习技术，提升模型在解决复杂谜题和逻辑推理任务中的表现。Puzzles数据集的推出，为人工智能在逻辑推理和问题解决领域的研究提供了重要的数据支持，推动了相关领域的技术进步和应用拓展。

当前挑战

Puzzles数据集面临的挑战主要体现在两个方面。首先，在解决领域问题方面，如何有效地提升模型在复杂逻辑推理任务中的准确性和泛化能力是一个关键挑战。由于谜题通常涉及多种逻辑结构和推理步骤，模型需要具备强大的理解和推理能力。其次，在数据集构建过程中，如何确保谜题的多样性和复杂性，同时避免数据偏差和重复，也是一个重要的挑战。研究人员需要精心设计和筛选谜题，以确保数据集的高质量和广泛适用性。

常用场景

经典使用场景

在自然语言处理领域，puzzles数据集常用于测试和评估模型在解决复杂逻辑和推理问题上的能力。该数据集包含多种类型的谜题，如数学谜题、逻辑谜题和语言谜题，这些谜题要求模型具备跨领域的知识和推理能力。通过使用puzzles数据集，研究人员可以深入分析模型在处理复杂问题时的表现，从而推动模型在推理和理解能力上的进步。

解决学术问题

puzzles数据集为解决自然语言处理中的推理和逻辑问题提供了重要的实验平台。传统的语言模型在处理简单文本任务时表现出色，但在面对需要复杂推理的问题时往往力不从心。该数据集通过提供多样化的谜题，帮助研究人员识别和解决模型在推理能力上的不足，推动了模型在复杂任务中的性能提升，为人工智能在逻辑推理领域的发展奠定了基础。

衍生相关工作

puzzles数据集的推出催生了一系列相关研究工作。例如，基于该数据集的研究提出了新的推理模型架构，如基于图神经网络的推理模型和结合符号推理的混合模型。此外，一些研究利用puzzles数据集开发了新的评估指标，用于更精确地衡量模型在复杂推理任务中的表现。这些工作不仅推动了推理模型的发展，也为自然语言处理领域的其他研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成