five

Professional Go Dataset (PGD)|围棋数据集|数据分析数据集

收藏
arXiv2022-04-30 更新2024-06-21 收录
围棋
数据分析
下载链接:
https://github.com/Gifanan/Professional-Go-Dataset
下载链接
链接失效反馈
资源简介:
本论文介绍了首个专业围棋数据集PGD,由2148名职业选手在1950至2021年间进行的98,043场比赛组成。数据集经过人工清洗和标注,提供了每位选手、每场比赛和每项赛事的详细元信息。此外,数据集还包括由基于AlphaZero的高级AI对每步棋的分析结果。PGD旨在通过提供完整元信息和构建的游戏内特征,推动围棋相关的数据驱动分析研究,增强粉丝体验,帮助选手提升能力,并促进其他有前景的领域发展。
提供机构:
中国科学技术大学生命科学与医学部
创建时间:
2022-04-30
AI搜集汇总
数据集介绍
main_image_url
构建方式
Professional Go Dataset (PGD) 的构建基于从公开的围棋数据集中提取的98,043场比赛记录,涵盖了1950年至2021年间2,148名职业棋手的比赛。数据集通过手动清理和标注,为每位棋手、每场比赛和每个赛事提供了详细的元信息。此外,利用基于AlphaZero算法的KataGo对每场比赛的每一步进行了分析,生成了丰富的对局统计数据。通过结合围棋领域的先验知识,进一步提取了能够指示比赛状态的有意义的对局特征。
特点
PGD 数据集的显著特点在于其全面性和深度。它不仅包含了大量的比赛记录和棋手信息,还通过先进的AI技术提供了每一步棋的详细分析结果。这些分析结果包括胜率、得分差异和推荐走法等,为数据驱动的围棋分析提供了坚实的基础。此外,数据集还包含了多种元信息和比赛特征,使得研究者能够进行多维度的性能分析和预测。
使用方法
PGD 数据集可用于多种围棋相关的数据分析任务,包括比赛结果预测、棋手行为和风格建模、以及实时比赛解说增强等。研究者可以通过提取和分析数据集中的元信息、上下文特征和对局特征,构建机器学习模型来预测比赛结果或分析棋手的比赛风格。此外,数据集还可用于开发实时比赛解说系统,通过结合AI的分析结果和历史数据,提供更为详细和精准的比赛解说,从而提升观众的观赛体验。
背景与挑战
背景概述
围棋(Go)作为东亚地区最受欢迎的棋类游戏之一,拥有稳定的职业体育体系,在中国、日本和韩国已有数十年的历史。尽管围棋在全球范围内拥有庞大的观众群体和丰厚的赛事奖金,但其数据驱动的分析技术发展却相对滞后。这主要归因于缺乏完整的数据集、元信息以及比赛中的统计数据。为了填补这一空白,高逸凡等人于2022年创建了专业围棋数据集(Professional Go Dataset, PGD),该数据集包含了1950年至2021年间由2,148名职业棋手进行的98,043场比赛。通过手动清理和标注,PGD提供了每位棋手、每场比赛和每场锦标赛的详细元信息,并包含了基于AlphaZero的高级AI对每一步棋的分析结果。PGD的推出不仅为围棋数据驱动的分析提供了基准,还显著提升了比赛结果预测的准确性,为围棋相关研究开辟了新的方向。
当前挑战
尽管PGD为围棋数据驱动的分析提供了丰富的资源,但其构建和应用过程中仍面临诸多挑战。首先,围棋比赛缺乏能够指示双方状态的统计数据,如篮球中的篮板球,这增加了特征工程的难度。其次,相对于其他流行体育项目,围棋的普及度较低,导致数据收集和有效特征构建的复杂性增加。此外,PGD在处理不同规则和贴目(komi)时,需要确保AI分析的准确性和一致性,这为数据集的构建带来了额外的技术挑战。最后,尽管PGD在比赛结果预测方面取得了显著进展,但其应用仍需进一步探索,特别是在行为和风格建模、评级系统以及实时解说增强等领域,以全面提升围棋数据分析的深度和广度。
常用场景
经典使用场景
Professional Go Dataset (PGD) 最经典的使用场景在于围棋比赛结果的预测。通过整合从1950年到2021年的98,043场专业围棋比赛数据,PGD提供了丰富的元信息和比赛中的统计数据,使得机器学习模型能够更准确地预测比赛结果。例如,利用PGD中的数据,研究人员可以训练模型来预测特定选手在不同比赛中的表现,从而为选手和观众提供有价值的洞察。
实际应用
PGD 在实际应用中具有广泛的前景。首先,它可以用于围棋比赛的实时分析和解说,通过AI生成的统计数据和预测结果,增强观众的观赛体验。其次,PGD 可以帮助职业选手进行比赛准备和策略优化,通过分析对手的历史比赛数据,制定更有效的比赛策略。此外,PGD 还可以用于围棋教学和培训,通过展示高水平选手的比赛数据和AI分析,帮助初学者和中级选手提升技能。
衍生相关工作
PGD 的发布激发了大量相关研究工作。例如,研究人员利用PGD中的数据开发了新的围棋比赛结果预测模型,这些模型在准确性和效率上均超过了传统的评级系统。此外,PGD 还促进了围棋选手风格和行为建模的研究,通过分析选手的比赛数据,识别和分类不同的比赛风格,这对于个性化训练和比赛策略制定具有重要意义。PGD 的成功也为其他棋类游戏的数据集构建和分析提供了借鉴,推动了整个棋类游戏数据科学领域的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

Titanic Dataset

Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics

kaggle 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录