five

nelson2424/Chess_openings_dataset

收藏
Hugging Face2023-11-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nelson2424/Chess_openings_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Cot-dataset是一个用于文本分类、文本生成和文本到文本生成任务的英语数据集。数据集的结构包括Opening_type(开局类型)、Context(上下文)、Move_type_pred(移动类型预测)和Move_pred(移动预测)四个部分。Context部分详细描述了棋盘状态、移动信息和移动类型预测。数据集的创建过程包括加载数据集、解析和组织游戏文本、解析游戏信息、迭代游戏、采样移动上下文、记录上下文信息以及存储处理后的数据。设计背后的直觉是通过创建整个棋盘网格,模型可以学习掌握移动对棋盘的影响,并创建更丰富的游戏表示。

Cot-dataset is an English dataset designed for text classification, text generation, and text-to-text generation tasks. The dataset consists of four components: Opening_type, Context, Move_type_pred, and Move_pred. The Context section elaborates on the board state, move information, and move type prediction. The dataset creation process includes loading the dataset, parsing and organizing game texts, parsing game information, iterating over games, sampling move contexts, recording context information, and storing the processed data. The intuition behind this design is that by constructing the entire board grid, models can learn to grasp the impact of moves on the board and create more enriched game representations.
提供机构:
nelson2424
原始信息汇总

Cot-dataset 数据集概述

数据集版本

  • 版本 1

数据集结构

  • Opening_type: 表示正在进行的开局名称。
  • Context: 一个字符串,表示一系列走法,每个走法由棋盘的前一个状态、即将进行的走法以及该走法对棋盘的影响组成。
    • 棋盘: 表示为一个 8*8 的字符网格,每个字符代表一个棋子或空格。
    • 走法: 使用 UCI 格式表示,例如 g8f6,表示棋子从 g8 移动到 f6。
    • 走法类型: 由逗号分隔的整数列表表示,每个整数代表走法对棋盘的影响。
      • 0: 无吃子走法
      • 1: 吃子走法
      • 2: 将军
      • 3: 将死
      • 4: 吃过路兵
      • 5: 王车易位(王侧)
      • 6: 王车易位(后侧)
      • 7: 和棋(逼和)
      • 8: 和棋(双方子力不足)
      • 9: 和棋(连续75回合无吃子)
      • 10: 和棋(五次重复局面)
  • Move_type_pred: 遵循与 Context 列相同的格式,表示走法类型。
  • Move_pred: 遵循与 Context 列相同的格式,表示走法。

数据集创建过程

  • 加载数据集: 使用 Hugging Face datasets 库加载 PGN 格式的国际象棋游戏数据集。
  • 解析和组织游戏文本: 从数据集中提取游戏文本并根据元数据和走法信息进行组织。
  • 解析游戏信息: 从游戏头信息中提取相关信息,如玩家 Elo 评分和开局名称。
  • 遍历游戏: 遍历每个游戏,如果游戏有指定开局且至少一个玩家的 Elo 评分大于 1700,则进行处理。
  • 采样走法上下文: 对于选定的游戏,从游戏的主线中随机采样走法子数组。
  • 记录上下文信息: 记录每个走法的棋盘状态、走法信息和走法类型预测。
  • 存储处理后的数据: 将提取的信息存储在字典中,然后转换为数据框并上传到 Huggingface 数据集中心。

设计背后的直觉

  • 通过创建整个棋盘网格,模型可以学习走法对棋盘的影响,从而创建更丰富的游戏表示。
  • 这种表示的一个目标是帮助预测逻辑走法,即使不需要游戏历史,仅使用当前棋盘状态的网格表示。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
This dataset provides a detailed collection of chess openings, including board states and move sequences, designed for training models in move prediction and game understanding. It features over 200,000 rows, covers multiple opening types, and is formatted for text generation and classification tasks.
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作