five

ProfessionAl Go annotation datasEt (PAGE)

收藏
arXiv2022-11-03 更新2024-06-21 收录
下载链接:
https://github.com/YifanGao00/The-Professional-Go-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
PAGE数据集是由中国科学技术大学生物医学工程学院的研究团队创建,包含98,525场由2,007名职业围棋选手参与的比赛,时间跨度超过70年。数据集不仅收录了比赛记录,还提供了每一步的AI分析结果和详细的选手及比赛元数据。PAGE数据集的创建旨在解决围棋领域数据分析的难题,推动数据驱动的围棋技术发展和心理学研究。通过精细的数据标注和清洗,PAGE为围棋分析提供了高质量的数据支持,适用于性别差异分析、失误预测和比赛结果预测等多个研究方向。

The PAGE dataset was developed by a research team from the School of Biomedical Engineering, University of Science and Technology of China. It comprises 98,525 games involving 2,007 professional Go players, spanning over 70 years. The dataset not only stores complete game records, but also provides AI analysis results for each move, alongside detailed metadata for the participating players and individual matches. The PAGE dataset was created to address the challenges of data analysis in the Go field, and to advance data-driven developments in Go technology and psychological research related to the game. Through meticulous data annotation and cleaning, the PAGE dataset delivers high-quality data support for Go analysis, and is suitable for multiple research areas including gender difference analysis, mistake prediction, and match outcome prediction.
提供机构:
中国科学技术大学生物医学工程学院
创建时间:
2022-11-03
搜集汇总
数据集介绍
main_image_url
构建方式
在围棋数据分析领域,构建高质量数据集面临专业记录稀缺与结构化信息匮乏的挑战。PAGE数据集通过整合公开围棋数据库中的原始对局记录,系统收集了1950年至2021年间由2007位职业棋手参与的98,525盘对局。数据构建过程涵盖多阶段处理:首先从Go4Go等权威平台获取原始棋谱,并排除AI对弈、业余比赛及异常终局;随后结合Go Ratings等多个可靠来源,人工清洗与标注棋手及赛事元数据,包括出生日期、性别、所属协会、赛事类别与级别;最后利用KataGo框架对每步棋进行深度分析,生成胜率、得分差、不确定性、所有权分布及推荐落点等精细化统计特征,通过双重模拟策略平衡计算效率与评估精度,历时约40天完成全面标注。
特点
PAGE数据集的核心特点在于其多维度的注释深度与历史覆盖广度。作为首个大规模职业围棋标注数据集,它囊括了跨越70余年的对局记录,不仅提供棋手与赛事的结构化元数据,更集成了基于KataGo的丰富对局内统计特征。这些特征包括动态胜率曲线、局面得分差异、不确定性量化指标以及棋盘所有权分布,为理解人类决策提供了前所未有的细粒度视角。数据集还包含完整的WHR评级序列及其不确定性度量,支持纵向棋手表现分析。其时间跨度与注释完整性使得研究者能够追踪围棋战略演变趋势,例如AlphaGo出现后职业棋手开局模仿行为的量化分析,为围棋研究提供了兼具历史纵深与计算深度的独特资源。
使用方法
该数据集适用于多学科研究场景,使用者可通过其结构化接口提取多维特征进行实证分析。在游戏分析领域,研究者可结合对局内统计特征构建棋手风格模型或失误预测系统,例如利用卷积神经网络或Transformer架构基于棋盘状态预测职业棋手的决策偏差。在心理学研究中,数据集支持基于大规模数据的认知差异分析,如通过WHR评级与参赛频率探究性别差异的影响因素。对于赛事预测任务,可整合元数据特征、上下文特征与对局内特征,采用XGBoost或CatBoost等机器学习方法构建结果预测模型。数据集提供的标准化数据格式与完整文档便于直接应用于下游任务,同时其开源特性允许研究者扩展注释或验证不同AI分析工具的一致性。
背景与挑战
背景概述
围棋作为亚洲历史悠久的策略棋类,其专业赛事记录长期缺乏系统化整理,制约了数据驱动的游戏分析与认知科学研究。2021年,中国科学技术大学等机构的研究团队推出了专业围棋标注数据集(PAGE),收录了1950年至2021年间2,007位职业棋手参与的98,525局对弈,并融合了KataGo人工智能的精细棋局统计与人工标注的元数据。该数据集首次为围棋领域提供了大规模、多维度标注资源,旨在推动游戏分析、心理学及人工智能交叉研究,填补了该领域结构化数据缺失的空白。
当前挑战
PAGE数据集致力于解决围棋领域内游戏分析与人类决策建模的复杂问题,其核心挑战在于如何从抽象棋局中量化棋手风格与表现,并支撑跨学科实证研究。在构建过程中,团队面临多重困难:原始对弈记录分散且格式不一,需从多个公开数据库整合并清洗;元数据标注依赖人工核查与多源验证,耗时耗力;而利用KataGo生成棋局统计特征时,需平衡计算精度与效率,单次分析耗时长达40天,且复杂棋形下的模拟结果仍存在不确定性。
常用场景
经典使用场景
在围棋数据分析领域,PAGE数据集为研究者提供了大规模、精细标注的专业棋局记录,其经典使用场景在于深入探究人类棋手的决策模式与行为特征。通过整合近十万局职业对弈数据及KataGo生成的丰富棋局统计信息,该数据集支持对棋手风格、失误模式及长期表现趋势的量化分析,为围棋智能研究奠定了坚实的数据基础。
解决学术问题
PAGE数据集有效解决了围棋研究中长期存在的结构化数据缺失问题,为认知科学、游戏分析与机器学习交叉领域提供了关键工具。它使得研究者能够系统考察性别差异与参与率的关系、预测职业棋手的失误行为,并基于历史数据评估比赛结果,从而推动对人类决策过程及智能体行为的深入理解。
衍生相关工作
围绕PAGE数据集,已衍生出多项经典研究工作,包括基于卷积神经网络与Transformer架构的失误预测模型、结合元数据与上下文特征的比赛结果预测系统,以及针对围棋性别差异的参与率分析。这些研究不仅验证了数据集在多任务中的实用性,也为后续棋手风格建模、评级系统优化及高级棋局统计指标的开发开辟了新的研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作