TYGEM dataset

github2020-01-24 更新2024-05-31 收录

下载链接：

https://github.com/SHKD13/computer-go-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

TYGEM 9D vs 9D数据集（1,516,031场比赛）。包含从2005年11月2日至2016年12月31日的对局数据，详细记录了每场比赛的参与者、日期、结果等信息。

The TYGEM 9D vs 9D dataset (1,516,031 matches). It includes game data from November 2, 2005, to December 31, 2016, detailing participants, dates, results, and other information for each match.

创建时间：

2018-05-17

原始信息汇总

数据集概述

1. TYGEM 数据集

时间范围: 2005.11.02 - 2016.12.31
游戏数量: 1,516,031 场
格式:
- 索引文件: 包含id, date, white, black, result等字段
- 棋谱文件: 格式为id ;B[coord];W[coord];B[coord];W[coord]......
- 转换工具: 提供转换为SGF的工具，如tygem_convert.tar.gz和Converter.py

2. TOM 数据集

时间范围: 2003.09.25 - 2011.12.28
游戏数量: 50,956 场
格式:
- 索引文件: 包含id, date, white, black, result等字段
- 棋谱文件: 格式为id ;B[coord];W[coord];B[coord];W[coord]......
- 转换工具: 提供转换为SGF的工具，如Converter_Tom.py

3. Foxwq 数据集

时间范围: 2013.07.09 - 2018.02.02
游戏数量: 148,102 场

4. Ayas selfplay games for training value network

棋盘大小: 19x19, 13x13, 9x9

5. Professional 数据集

时间范围: 1940.01.01 - 2017.01.09
游戏数量: 73,522 场
格式: SGF格式

6. AI 数据集

包含的AI: AlphaGo, ELF OpenGo, FineArt, PhoenixGo, Zen, CGI, DolBaram, Dancer, Leela, CNC
详细信息: 每个AI的数据集包括多个子集，如AlphaGo Zero, AlphaGo Ke等，详细记录了比赛时间、对手、结果等。

7. CGOS 数据集

棋盘大小: 19x19, 13x13, 9x9

8. Leela Zero 数据集

数据类型: Self-Play, Match, Training Data

9. KGS 数据集

数据类型: Kifu

10. Minigo 数据集

棋盘大小: 9x9, 19x19
数据类型: Tensorflow tf.Record files, saved model files, SGF files

11. NNGS 数据集

游戏数量: 435,495 SGF files
时间范围: 1995.07 - 2005.05

数据集格式

TYGEM, TOM, Professional: 提供详细的索引和棋谱文件格式说明。
AI 数据集: 详细记录了每个AI的比赛数据，包括对手、时间和结果。
Leela Zero, Minigo: 提供了训练数据和模型文件的详细信息。
NNGS: 提供了SGF文件的数量和时间范围。

搜集汇总

数据集介绍

构建方式

TYGEM数据集由1,516,031盘9D对9D的围棋对局组成，时间跨度为2005年11月2日至2016年12月31日。数据集的构建主要采用从TYGEM服务器上收集的对局记录，包括对局ID、日期、黑白双方信息、对局结果、_round与_byoyomi等时间信息。每局棋的胜负信息以UTF-8编码存储，且默认设置为双方均为9段、有胜负关系的正式对局。

使用方法

使用TYGEM数据集时，用户首先需要合并分割的.index文件。之后，可利用提供的转换工具将kifu文件转换为SGF格式，便于在围棋软件中查看或进行机器学习训练。用户可以根据自己的需求，对数据集中的信息进行筛选和预处理，以适应不同的研究和应用场景。

背景与挑战

背景概述

TYGEM数据集，创建于2005年11月2日至2016年12月31日，是由TYGEM围棋服务器收集的9D对9D的围棋比赛数据，总计包含1,516,031场比赛。该数据集的构建旨在为围棋AI的研究与训练提供丰富的对局资源。主要研究人员为Hiroshi Yamashita，数据转换工具的编写者，以及维护和更新数据集的CamWagner等。数据集的核心研究问题是提升围棋AI的棋力以及对局策略。TYGEM数据集对围棋AI发展领域产生了深远的影响，是多个围棋AI项目的重要训练资源。

当前挑战

在构建过程中，TYGEM数据集面临的挑战包括数据格式的标准化、数据清洗以确保对局质量、以及对弈信息的准确标注。此外，由于数据量巨大，数据集的存储和访问效率也是一大挑战。在研究领域问题方面，如何利用这些数据集有效提升AI棋力、避免过拟合以及提高泛化能力是当前围棋AI研究的主要挑战。

常用场景

经典使用场景

TYGEM数据集作为围棋领域的重要资源，其经典使用场景主要在于为研究者和开发者提供海量的对局数据，以供机器学习和人工智能算法的训练。通过对该数据集的深入分析，研究者能够训练出更为精准的围棋模型，进而提升人工智能在围棋对弈中的表现。

解决学术问题

TYGEM数据集解决了学术研究中获取高质量围棋对局数据的问题，为研究围棋的策略、手筋、定式等提供了丰富的样本。此外，该数据集对于探究围棋算法的自我学习和优化机制同样具有重要意义，推动了相关学术领域的进展。

实际应用

在实际应用中，TYGEM数据集被广泛运用于开发围棋人工智能程序，如AlphaGo等知名围棋AI在训练过程中均使用了类似的数据集。这些程序的训练成果不仅提高了围棋AI的竞技水平，也为围棋爱好者提供了学习和对弈的平台。

数据集最近研究