Game Data - Public Dataset

github2026-01-17 更新2026-01-18 收录

下载链接：

https://github.com/Catan-data/dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含43,947个匿名化的在线Catan游戏，用于研究和分析。数据集包含四玩家游戏，每个游戏以JSON文件格式存储，包含玩家信息、游戏事件、游戏设置等详细数据。

This dataset contains 43,947 anonymized online Catan games for research and analysis. The dataset consists of four-player games, where each game is stored in JSON file format and includes detailed data such as player information, game events, and game settings.

创建时间：

2026-01-17

原始信息汇总

数据集概述

数据集基本信息

数据集名称：Game Data - Public Dataset
数据来源：在线卡坦岛游戏
游戏总数：43,947 场
游戏模式：标准四人卡坦岛
玩家实例总数：约 175,000 个
数据格式：JSON 文件（每场游戏一个文件）
未压缩数据大小：约 6.9 GB

数据获取

下载地址：https://github.com/Catan-data/dataset/releases/latest
下载文件：games.tar.gz
提取命令：tar -xzf games.tar.gz

数据结构

每个游戏文件包含一个JSON对象，其主结构如下：

data.playerUserStates：玩家信息（已匿名化）
data.playOrder：按玩家颜色编号表示的回合顺序
data.gameSettings：游戏配置
data.eventHistory：游戏事件历史记录
- events：所有游戏事件
- endGameState：包含获胜者的最终游戏状态
- totalTurnCount：游戏总回合数
- initialState：初始棋盘状态

关键数据字段说明

玩家颜色编号

1 = 蓝色
2 = 红色
3 = 橙色
4 = 棕色（罕见）
5 = 白色

事件类型

事件存储在 stateChange.gameLogState 中，通过 text.type 标识：

4：放置建筑（定居点/道路/城市）
11：掷骰获得资源
14：与银行交易
15：与玩家交易
20：打出发展卡
22：购买发展卡
45：宣布游戏获胜者
49：移动强盗
55：丢弃卡牌（掷出7点）
86：垄断卡效果

发展卡枚举

在类型20事件中，cardEnum 表示发展卡类型：

10, 11：骑士卡
12：垄断卡
13：分数卡
14：道路建设卡
15：丰收之年卡

资源枚举

1：砖
2：羊毛
3：谷物
4：矿石
5：木材

棋盘坐标系统

六边形：(x, y) 坐标
角落：(x, y, z) 坐标，其中 z=0 为“上”角，z=1 为“下”角
边：tileEdgeStates 中的边ID

游戏结束状态

获胜者信息位于 data.eventHistory.endGameState.players 中，包含玩家排名、颜色、是否为获胜者以及胜利点数明细（定居点、城市、最大军队、最长道路、分数卡）。

骰子点数概率值

标准卡坦岛骰子点数分布：

2, 12：1个点
3, 11：2个点
4, 10：3个点
5, 9：4个点
6, 8：5个点
7：触发强盗

隐私声明

此数据集已进行匿名化处理：

已移除：用户名、用户ID、国家代码
已保留：玩家颜色、所有游戏事件、棋盘状态

使用许可与引用

许可：仅限研究和教育用途。
引用格式：

MR. MUCHO BUCHO Game Data (2025) 43,947 anonymized 4-player Catan games https://github.com/Catan-data/dataset

搜集汇总

数据集介绍

构建方式

在数字游戏分析领域，数据集的构建往往依赖于大规模游戏记录的收集与处理。该数据集通过采集在线《卡坦岛》游戏平台的四人对局记录，共计汇聚了43,947场完整游戏数据。每场游戏均以独立的JSON文件形式存储，总计约6.9GB的未压缩数据量。构建过程中，所有用户身份信息均经过匿名化处理，移除了用户名、用户ID及国家代码等敏感内容，同时完整保留了游戏事件序列、棋盘状态及玩家颜色标识，确保了数据在符合隐私保护要求的前提下，为研究提供详实的游戏交互轨迹。

特点

该数据集的核心特点在于其高度结构化的游戏事件记录与丰富的状态信息。每场游戏不仅包含玩家行动顺序、初始棋盘配置及最终胜负状态，还详细记录了资源获取、建筑建造、卡牌使用及贸易交互等关键事件类型。通过枚举编码系统，资源类型、发展卡种类及玩家颜色等元素均被标准化表示，便于量化分析。此外，数据集完整覆盖了标准四人对局模式，游戏长度与胜利条件多样，为研究游戏策略、玩家行为建模及人工智能训练提供了多维度、高保真的数据基础。

使用方法

使用该数据集时，研究者可通过解压提供的压缩包获取全部JSON文件，并利用编程工具进行解析与处理。数据分析可聚焦于事件历史序列，追踪玩家决策路径与资源动态变化；结合结束状态中的胜利点分布，能够评估不同策略的有效性。由于数据已匿名化且格式统一，适用于机器学习模型训练、博弈论验证及玩家行为模式挖掘等研究场景。引用时请遵循指定的引用格式，并注意数据集仅限用于研究与教育目的。

背景与挑战

背景概述

在人工智能与游戏研究领域，对复杂策略游戏进行数据驱动的分析已成为深化智能体决策理解的关键途径。Game Data - Public Dataset由MR. MUCHO BUCHO于2025年发布，收录了43,947场四人在线卡坦岛游戏的匿名化数据，旨在为研究者提供大规模、结构化的游戏交互记录。该数据集的核心研究问题聚焦于多智能体协作与竞争环境下的策略演化、资源管理机制以及玩家行为建模，其详尽的回合事件历史与终局状态为探索强化学习、博弈论及人机交互等前沿方向奠定了坚实的数据基础，对推动智能决策系统的实证研究具有显著影响力。

当前挑战

该数据集致力于解决策略游戏分析中的核心挑战，即如何从高维、序列化的游戏事件中提取可解释的决策模式，并建模多玩家动态交互的复杂性。具体而言，挑战体现在事件类型的多样性与资源分配的不确定性，例如发展卡使用、玩家间交易等非线性行为增加了策略归因的难度。在构建过程中，面临数据匿名化与信息完整性的平衡问题，需在移除用户身份信息的同时保留完整的游戏状态与事件序列，确保数据既符合隐私规范又不损失分析价值；此外，大规模JSON文件的存储与解析对计算资源提出了较高要求，数据的一致性与格式标准化也是预处理阶段的关键难点。

常用场景

经典使用场景

在策略游戏分析与人工智能研究领域，该数据集为经典桌游《卡坦岛》的在线对局记录提供了大规模、结构化的实证数据。研究者可借助其详尽的回合事件序列与棋盘状态变迁，深入剖析玩家决策模式、资源管理策略及社交互动行为，从而揭示复杂多人博弈环境下的动态演化规律。

衍生相关工作

围绕该数据集已衍生出一系列经典研究工作，包括基于序列预测的玩家行为建模、利用图神经网络对棋盘状态进行表示学习，以及开发端到端的游戏AI代理。这些工作不仅推动了游戏AI的技术前沿，也为多智能体系统、决策科学等领域提供了新的方法论启示与交叉研究案例。

数据集最近研究