Professional Go Dataset (PGD)

Name: Professional Go Dataset (PGD)
Creator: 中国科学技术大学生命科学与医学部
Published: 2022-04-30 20:53:04
License: 暂无描述

arXiv2022-04-30 更新2024-06-21 收录

下载链接：

https://github.com/Gifanan/Professional-Go-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

本论文介绍了首个专业围棋数据集PGD，由2148名职业选手在1950至2021年间进行的98,043场比赛组成。数据集经过人工清洗和标注，提供了每位选手、每场比赛和每项赛事的详细元信息。此外，数据集还包括由基于AlphaZero的高级AI对每步棋的分析结果。PGD旨在通过提供完整元信息和构建的游戏内特征，推动围棋相关的数据驱动分析研究，增强粉丝体验，帮助选手提升能力，并促进其他有前景的领域发展。

This paper introduces PGD, the first professional Go dataset, which consists of 98,043 games played by 2,148 professional players between 1950 and 2021. The dataset has undergone manual cleaning and annotation, providing detailed metadata for each player, each game, and each tournament. Additionally, the dataset includes analysis results of each move generated by an advanced AlphaZero-based AI. PGD aims to promote data-driven analytical research related to Go by providing complete metadata and constructed in-game features, enhance fan experience, assist players in improving their skills, and facilitate the development of other promising fields.

提供机构：

中国科学技术大学生命科学与医学部

创建时间：

2022-04-30

搜集汇总

数据集介绍

构建方式

Professional Go Dataset (PGD) 的构建基于从公开的围棋数据集中提取的98,043场比赛记录，涵盖了1950年至2021年间2,148名职业棋手的比赛。数据集通过手动清理和标注，为每位棋手、每场比赛和每个赛事提供了详细的元信息。此外，利用基于AlphaZero算法的KataGo对每场比赛的每一步进行了分析，生成了丰富的对局统计数据。通过结合围棋领域的先验知识，进一步提取了能够指示比赛状态的有意义的对局特征。

特点

PGD 数据集的显著特点在于其全面性和深度。它不仅包含了大量的比赛记录和棋手信息，还通过先进的AI技术提供了每一步棋的详细分析结果。这些分析结果包括胜率、得分差异和推荐走法等，为数据驱动的围棋分析提供了坚实的基础。此外，数据集还包含了多种元信息和比赛特征，使得研究者能够进行多维度的性能分析和预测。

使用方法

PGD 数据集可用于多种围棋相关的数据分析任务，包括比赛结果预测、棋手行为和风格建模、以及实时比赛解说增强等。研究者可以通过提取和分析数据集中的元信息、上下文特征和对局特征，构建机器学习模型来预测比赛结果或分析棋手的比赛风格。此外，数据集还可用于开发实时比赛解说系统，通过结合AI的分析结果和历史数据，提供更为详细和精准的比赛解说，从而提升观众的观赛体验。

背景与挑战

背景概述

围棋（Go）作为东亚地区最受欢迎的棋类游戏之一，拥有稳定的职业体育体系，在中国、日本和韩国已有数十年的历史。尽管围棋在全球范围内拥有庞大的观众群体和丰厚的赛事奖金，但其数据驱动的分析技术发展却相对滞后。这主要归因于缺乏完整的数据集、元信息以及比赛中的统计数据。为了填补这一空白，高逸凡等人于2022年创建了专业围棋数据集（Professional Go Dataset, PGD），该数据集包含了1950年至2021年间由2,148名职业棋手进行的98,043场比赛。通过手动清理和标注，PGD提供了每位棋手、每场比赛和每场锦标赛的详细元信息，并包含了基于AlphaZero的高级AI对每一步棋的分析结果。PGD的推出不仅为围棋数据驱动的分析提供了基准，还显著提升了比赛结果预测的准确性，为围棋相关研究开辟了新的方向。

当前挑战

尽管PGD为围棋数据驱动的分析提供了丰富的资源，但其构建和应用过程中仍面临诸多挑战。首先，围棋比赛缺乏能够指示双方状态的统计数据，如篮球中的篮板球，这增加了特征工程的难度。其次，相对于其他流行体育项目，围棋的普及度较低，导致数据收集和有效特征构建的复杂性增加。此外，PGD在处理不同规则和贴目（komi）时，需要确保AI分析的准确性和一致性，这为数据集的构建带来了额外的技术挑战。最后，尽管PGD在比赛结果预测方面取得了显著进展，但其应用仍需进一步探索，特别是在行为和风格建模、评级系统以及实时解说增强等领域，以全面提升围棋数据分析的深度和广度。

常用场景

经典使用场景

Professional Go Dataset (PGD) 最经典的使用场景在于围棋比赛结果的预测。通过整合从1950年到2021年的98,043场专业围棋比赛数据，PGD提供了丰富的元信息和比赛中的统计数据，使得机器学习模型能够更准确地预测比赛结果。例如，利用PGD中的数据，研究人员可以训练模型来预测特定选手在不同比赛中的表现，从而为选手和观众提供有价值的洞察。

实际应用

PGD 在实际应用中具有广泛的前景。首先，它可以用于围棋比赛的实时分析和解说，通过AI生成的统计数据和预测结果，增强观众的观赛体验。其次，PGD 可以帮助职业选手进行比赛准备和策略优化，通过分析对手的历史比赛数据，制定更有效的比赛策略。此外，PGD 还可以用于围棋教学和培训，通过展示高水平选手的比赛数据和AI分析，帮助初学者和中级选手提升技能。

衍生相关工作

PGD 的发布激发了大量相关研究工作。例如，研究人员利用PGD中的数据开发了新的围棋比赛结果预测模型，这些模型在准确性和效率上均超过了传统的评级系统。此外，PGD 还促进了围棋选手风格和行为建模的研究，通过分析选手的比赛数据，识别和分类不同的比赛风格，这对于个性化训练和比赛策略制定具有重要意义。PGD 的成功也为其他棋类游戏的数据集构建和分析提供了借鉴，推动了整个棋类游戏数据科学领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集