c4_v2

Hugging Face2026-03-26 更新2026-03-27 收录

下载链接：

https://huggingface.co/datasets/Parsenal/c4_v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含约207.6万个Connect Four（四子棋）游戏位置，其中7.61万个位置保留为测试集。数据集旨在为Connect Four模型提供丰富的监督信号，每个棋盘位置的有效走法的动作值均通过求解器计算得出。核心信号是求解器生成的negamax列表，其他目标如最优走法、威胁掩码等均可由此派生。数据生成过程采用epsilon-greedy动作选择的求解器对弈，产生了约25万局游戏的位置分布。数据集提供了多种监督目标，包括最优走法、威胁掩码、每步动作值等，可用于训练模型预测威胁掩码、最优走法等任务。需要注意的是，由于采用epsilon-greedy生成，位置分布不同于纯最优对弈或人类对弈，且排除了镜像重复位置。

创建时间：

2026-03-19

原始信息汇总

Parsenal/c4_v2 数据集概述

数据集基本信息

数据集名称: Parsenal/c4_v2
许可协议: Apache-2.0
标签: Connect4, board_game
下载大小: 183,716,944 字节
数据集总大小: 525,207,805 字节

数据规模与划分

总样本数: 约 2,076,145 个棋盘局面
训练集: 2,000,000 个样本，大小 505,934,787 字节
测试集: 76,145 个样本，大小 19,273,018 字节

数据特征

state: 字符串类型，表示棋盘状态
turn: 字符串类型，表示当前回合
negamax: 字符串列表，表示所有合法走法的动作价值
optimal: 字符串类型，表示最优走法
stage: 字符串类型，表示游戏阶段
outcome: 字符串类型，表示对局结果
final_move: 整型，表示最终走法
depth: 整型，表示深度
assistant_threats: 字符串类型，表示威胁标注

数据生成方法

使用求解器通过 epsilon-greedy 动作选择生成对局
生成约 250,000 局游戏的棋盘局面分布
所有局面经过洗牌
镜像重复局面被有意排除

标注与监督信息

数据集为每个棋盘局面提供可用于多种训练目标的监督信号：

最优走法
威胁掩码
每个合法走法的每步动作价值
可从动作价值/negamax输出推导出的局面价值或相关目标信号

威胁定义

威胁标注遵循 James D. Allen, The Complete Book of Connect Four 中的定义。

最优走法平局决胜规则

当存在多个最优走法时，按以下规则选择目标走法：

选择最中心的最优走法
如果仍有平局，选择最左侧的走法

预期用途

该数据集用于训练 granite_4_in_a_row 模型，教导模型：

输出威胁掩码
预测最优走法

此外，数据集还可用于：

价值预测
动作价值预测
威胁 + 策略 + 价值的多任务训练

注意事项与限制

由于对局通过epsilon-greedy玩法生成，局面分布与纯最优玩法或人类玩法不同
镜像局面被排除，如需尝试对称性增强，应单独添加

致谢

用于标注和游戏生成的求解器：

https://github.com/ChristopheSteininger/c4.git

威胁定义基于：

James D. Allen, The Complete Book of Connect Four

搜集汇总

数据集介绍

构建方式

在棋盘游戏智能体训练领域，高质量监督数据的构建至关重要。c4_v2数据集通过求解器驱动的自动化流程生成，其核心在于利用一个经过验证的Connect Four求解器，以ε-贪婪策略进行自我对弈，由此产生了约25万局游戏，并从中采样出约207.6万个棋盘状态。数据生成后经过精心洗牌，并从中划分出7.61万个独立状态作为测试集，同时为确保数据的独特性，刻意排除了所有镜像对称的重复局面。

特点

该数据集的核心特征在于其提供的多层次、细粒度监督信号。每个棋盘状态不仅标注了基于求解器计算的、经过中央优先与最左优先规则打破平局后的最优落子，还包含了一个针对所有合法走法的负极大值行动价值列表。此外，数据集严格遵循经典文献中的定义，为每个位置标注了威胁掩码。这些丰富的标注使得单一数据集能够同时支持策略学习、价值预测、行动价值评估以及威胁检测等多种训练目标。

使用方法

数据集旨在为Connect Four模型的训练提供全面的监督。使用者可以依据不同的研究目标，灵活提取相应的监督信号。例如，可以专注于训练模型预测最优走子或输出威胁掩码，正如其原始用途——训练granite_4_in_a_row模型。同时，研究者也可利用其负极大值列表进行位置价值或行动价值的回归预测，或设计多任务学习框架，将威胁识别、策略优化与价值评估相结合。需要注意的是，由于数据生成基于特定策略，其局面分布与纯最优对弈或人类对局存在差异，且未包含镜像对称增强，使用者可根据需要自行添加。

背景与挑战

背景概述

在人工智能博弈研究领域，棋类游戏数据集为训练和评估智能体模型提供了关键资源。c4_v2数据集聚焦于经典双人零和博弈“四子棋”（Connect Four），由研究人员基于开源求解器系统构建，旨在为模型训练提供丰富的监督信号。该数据集的核心研究问题在于通过精确的棋局求解，为每个棋盘位置生成最优走法、动作价值及威胁模式等多维度标注，从而支持策略学习、价值预测等多项机器学习任务。其生成过程依赖于求解器驱动的自对弈与ε-贪婪探索，涵盖了约250万局棋局中的200余万个独特位置，显著提升了四子棋领域模型训练的监督质量与多样性，为后续如granite_4_in_a_row等专用模型的开发奠定了数据基础。

当前挑战

c4_v2数据集所针对的领域核心挑战在于四子棋的完美信息博弈求解与策略优化，这要求模型能够精准评估棋盘状态、识别即时威胁并规划长远获胜序列。构建过程中的主要挑战包括：其一，通过ε-贪婪动作选择生成棋局分布，虽能丰富位置多样性，但可能导致数据分布与纯粹最优对弈或人类实际对局存在偏差，影响模型在真实场景中的泛化能力；其二，为保持数据唯一性而刻意排除了镜像对称位置，这要求使用者若需利用棋盘对称性进行数据增强，必须额外实施预处理步骤，增加了应用复杂性。此外，如何从求解器输出的负极大值列表中有效推导出多种监督目标（如动作价值、威胁掩码等），并确保标注与权威威胁定义的一致性，亦是数据集构建中需细致处理的技术难点。

常用场景

经典使用场景

在人工智能与博弈论交叉领域，c4_v2数据集为连珠棋（Connect Four）的强化学习与监督学习模型提供了核心训练资源。该数据集通过求解器生成的丰富标注，特别是每个有效走法的负极大值列表，使得研究者能够精确训练模型预测最优走法、评估棋盘位置价值，并识别威胁模式。其经典应用场景聚焦于构建端到端的连珠棋智能体，通过多任务学习框架，同步优化策略网络与价值网络，从而在完全信息零和博弈中实现接近最优的决策性能。

解决学术问题

c4_v2数据集有效应对了连珠棋研究中长期存在的若干挑战，包括高效求解大规模状态空间、准确量化走法动作价值，以及形式化威胁检测机制。通过提供超过两百万个棋盘位置的精确求解标注，该数据集使得学者能够深入探索强化学习中的价值函数逼近、策略梯度优化，以及多智能体对抗环境下的自我对弈算法。其意义在于为完全信息博弈树搜索与神经网络结合的研究范式提供了标准化基准，推动了从传统启发式方法向数据驱动模型的范式转变。

衍生相关工作

基于c4_v2数据集，研究社区已衍生出多项经典工作，其中最显著的是granite_4_in_a_row模型的训练，该模型成功整合了威胁掩码预测与最优走法选择。进一步地，该数据集促进了连珠棋领域多任务学习架构的发展，例如同时进行策略、价值与威胁预测的神经网络设计。这些工作不仅提升了连珠棋AI的竞技水平，也为通用博弈求解器的可扩展性与样本效率研究提供了实证基础，推动了深度强化学习在完全信息博弈中的理论进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集