computer-go-dataset|围棋AI数据集|数据集数据集

github2024-05-22 更新2024-05-31 收录

围棋AI

数据集

下载链接：

https://github.com/yenw/computer-go-dataset

下载链接

链接失效反馈

资源简介：

计算机围棋数据集，包含多个子数据集，如TYGEM、Tom、Foxwq等，涵盖了从2003年到2020年的围棋对局数据，用于计算机围棋研究和AI训练。

The Computer Go dataset comprises multiple sub-datasets, such as TYGEM, Tom, Foxwq, etc., encompassing Go game data from 2003 to 2020, utilized for computer Go research and AI training.

创建时间：

2017-04-12

原始信息汇总

数据集概述

1. TYGEM 数据集

时间范围: 2005.11.02 - 2016.12.31
游戏数量: 1,516,031 场
格式: 包含 id, date, white, black, result 等字段
转换工具: 提供转换为 SGF 的工具和使用示例

2. TOM 数据集

时间范围: 2003.09.25 - 2011.12.28
游戏数量: 50,956 场
格式: 包含 id, date, white, black, result 等字段
转换工具: 提供转换为 SGF 的工具和使用示例

3. Foxwq 数据集

时间范围: 2013.07.09 - 2019.10.17
游戏数量: 166,184 场
Github 链接: 18k-9d

4. Ayas selfplay games for training value network

棋盘大小: 19x19, 13x13, 9x9
链接: Ayas selfplay games

5. Professional 数据集

时间范围: 1940.01.01 - 2017.01.09
游戏数量: 73,522 场
格式: 文本格式，包含多个 SGF 文件
SGF 标签: 包含 GM, FF, SZ 等标签

6. AI 数据集

包含多个 AI 系统: AlphaGo, ELF OpenGo, FineArt, PhoenixGo 等
详细记录了各个 AI 系统的对局情况和比赛结果

7. CGOS 数据集

包含多个棋盘大小: 19x19, 13x13, 9x9
链接: CGOS 数据集

8. Leela Zero 数据集

包含自对局和比赛数据: Self-Play, Match
训练数据: Training Data

9. KGS 数据集

链接: Kifu

10. Minigo 数据集

包含多个资源: CloudyGo, Github, Youtube
Google Cloud 存储: 包含训练数据和模型文件

11. NNGS 数据集

包含 SGF 文件数量: 435,495
时间范围: 1995.07 - 2005.05
Github 链接: NNGS_SGF_Archive

12. ELF OpenGo 数据集

包含训练数据和分析: v2-training-run, Analysis

13. KataGo 数据集

包含分布式训练数据: KataGo Distributed Training
链接: Home Page, dataset

AI搜集汇总

数据集介绍

构建方式

在构建computer-go-dataset时，研究者们精心收集了多个来源的围棋对局数据，包括来自TYGEM、TOM、Foxwq等平台的对局记录，以及AI与人类专业棋手的对局数据。这些数据涵盖了从2003年至2020年的广泛时间段，确保了数据集的时间跨度和多样性。数据集的构建过程中，研究者们还特别关注了数据的格式统一，将不同来源的对局记录转换为标准的SGF格式，以便于后续的分析和使用。

使用方法

使用computer-go-dataset时，用户可以通过提供的转换工具将原始数据转换为SGF格式，以便进行进一步的分析和处理。数据集的README文件中详细描述了每个子数据集的格式和内容，用户可以根据需要选择特定的数据子集进行研究。此外，数据集还提供了多个转换脚本，如Converter.py和Converter_Tom.py，帮助用户快速将数据转换为可用的格式。对于AI研究者，该数据集可用于训练和验证围棋AI模型，提升模型的性能和泛化能力。

背景与挑战

背景概述

计算机围棋数据集（computer-go-dataset）汇集了多个来源的围棋对局数据，涵盖了从2003年至2020年的广泛时间跨度。该数据集由多个研究机构和独立研究人员共同构建，其中包括TYGEM、TOM、Foxwq等知名围棋平台的数据。这些数据不仅包括人类棋手之间的对局，还涵盖了AI与人类棋手以及AI之间的对局，如AlphaGo、ELF OpenGo等。这些数据对于研究围棋策略、AI算法优化以及人类与AI对弈的策略分析具有重要意义。

当前挑战

构建计算机围棋数据集面临多重挑战。首先，数据来源多样，格式各异，需要进行统一的标准化处理，如将不同格式的棋谱转换为SGF格式。其次，数据量庞大，处理和存储这些数据需要高效的算法和强大的计算资源。此外，数据的质量控制也是一个重要问题，确保每一场对局的准确性和完整性。最后，随着AI技术的快速发展，如何持续更新和扩充数据集，以反映最新的AI对弈策略和人类棋手的进步，也是一个持续的挑战。

常用场景

经典使用场景

在围棋领域，computer-go-dataset 数据集被广泛用于训练和评估计算机围棋程序。该数据集包含了从多个在线围棋平台收集的对局记录，涵盖了从专业棋手到AI程序的对局。这些对局数据不仅用于训练围棋AI的策略和估值网络，还用于研究围棋的复杂策略和模式识别。通过分析这些对局，研究人员可以深入理解围棋的战术和战略，从而提升AI的棋力。

解决学术问题

computer-go-dataset 数据集解决了围棋AI研究中的多个关键问题。首先，它提供了大量的高质量对局数据，使得研究人员能够训练出更强大的围棋AI模型。其次，通过对不同AI程序的对局分析，可以评估和比较不同AI的性能，推动围棋AI技术的发展。此外，该数据集还为研究围棋的复杂策略和模式识别提供了丰富的素材，有助于揭示围棋的深层规律。

实际应用

在实际应用中，computer-go-dataset 数据集被用于开发和优化围棋AI程序，这些程序可以应用于在线围棋平台、围棋教学软件以及围棋比赛分析工具。通过使用该数据集训练的AI，用户可以获得更智能的对手或教练，提升围棋水平。此外，这些AI程序还可以用于分析专业棋手的对局，提供战术建议和策略分析，帮助棋手提升棋力。

数据集最近研究

最新研究方向

在计算机围棋领域，computer-go-dataset数据集的最新研究方向主要集中在利用深度学习和强化学习技术提升围棋AI的性能。研究者们通过分析AlphaGo、AlphaGo Zero、ELF OpenGo等顶尖AI的对局数据，探索更高效的训练模型和策略网络。此外，数据集中的多维度信息，如不同棋手、不同平台和不同比赛的对局记录，为研究围棋AI的多样性和鲁棒性提供了丰富的资源。这些研究不仅推动了围棋AI的发展，也为其他复杂策略游戏的AI研究提供了宝贵的经验和方法。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

Fruits-360

一个高质量的水果图像数据集，包含多种水果的图像，如苹果、香蕉、樱桃等，总计42345张图片，分为训练集和验证集，共有64个水果类别。

github 收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集，主要由非网络来源的内部数据构成，包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容，质量优异，信息密度可观。数据集适用于预训练或继续预训练用途，未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用，但建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据，以避免灾难性遗忘并加强模型表现。

huggingface 收录