connect4
收藏Hugging Face2026-03-05 更新2026-03-06 收录
下载链接:
https://huggingface.co/datasets/linius/connect4
下载链接
链接失效反馈官方服务:
资源简介:
Connect4 Reasoning Task 数据集是通过 GAMEBoT 框架在 Connect4 游戏中动态构建的,旨在评估大型语言模型(LLMs)在符号推理、棋盘状态解析和前瞻规划方面的能力。该数据集将 6×7 的网格状态序列化为基于文本的格式,挑战模型在确定性环境中识别获胜拓扑的能力,其状态空间复杂度约为 4.5×10¹²,确保了对数据污染的鲁棒性评估。数据集通过两个随机代理模拟游戏生成多样化的棋盘状态分布,覆盖平衡和关键战术场景,并通过去重和标签平衡(空回答样本最多占20%)来优化数据质量。每个实例要求模型解决两个子问题:自我获胜(寻找形成四连子的潜在移动)和对手获胜(识别对手形成四连子的潜在移动)。所有标签均通过 GAMEBoT 引擎中的完美求解器验证。
创建时间:
2026-03-04
原始信息汇总
Connect4 Reasoning Task 数据集概述
数据集简介
本数据集使用 GAMEBoT 框架在 Connect4 游戏中动态构建。其设计目的是评估大型语言模型在符号推理、棋盘状态解析和前瞻性规划方面的能力。
核心特征
- 任务类别:问答、文本生成
- 语言:英语
- 标签:博弈论、推理、Connect4、合成数据集、逻辑
- 许可协议:MIT
- 数据规模:小于1K样本
- 正式名称:Connect4 Reasoning Task
构建方法
- 状态生成:通过两个随机智能体模拟游戏,生成多样化的棋盘状态分布,涵盖平衡和关键战术场景。
- 过滤与平衡:
- 移除重复状态。
- 为防止标签不平衡(即模型可能通过简单预测“无获胜步法”获得高分),将空答案的状态下采样至最大比例20%。
- 真实标签:所有标签均通过集成在GAMEBoT引擎中的完美求解器进行验证。
评估协议
对于每个实例,模型被要求解决两个子问题:
- 自我获胜:“是否存在任何潜在的获胜步法,让你形成四子连线?输出所有获胜步法。”
- 对手获胜:“是否存在任何潜在的获胜步法,让你的对手形成四子连线?输出所有获胜步法。” 评估过程从模型的思维链中提取最终答案,并与引擎验证的真实标签进行比较。
引用
若此数据集对您的研究有所帮助,请引用以下工作: bibtex @inproceedings{lin2025gamebot, title={GAMEBoT: Transparent assessment of LLM reasoning in games}, author={Lin, Wenye and Roberts, Jonathan and Yang, Yunhan and Albanie, Samuel and Lu, Zongqing and Han, Kai}, booktitle=ACL, year={2025} }
搜集汇总
数据集介绍
构建方式
在符号推理与博弈论领域,Connect4推理任务数据集的构建体现了严谨的工程化流程。该数据集依托GAMEBoT框架,通过模拟两个随机智能体在六乘七网格上的对弈,动态生成了多样化的棋盘状态分布,既涵盖均衡局面,也包含关键战术场景。为确保数据质量,构建过程剔除了重复状态,并通过下采样将无获胜步法的空答案实例比例控制在百分之二十以内,有效缓解了标签不平衡问题。所有实例的最终标签均由集成在引擎内的完美求解器进行验证,保证了标注的准确性与可靠性。
特点
该数据集的核心特征在于其专注于评估大语言模型在确定性环境中的深层推理能力。数据集将棋盘状态序列化为文本格式,要求模型解析复杂局面并执行前瞻性规划,其状态空间复杂度高达约4.5×10^12,这为抵御数据污染提供了坚实的评估基础。每个实例均设计为包含两个紧密关联的子问题:识别己方与对手的潜在获胜步法,这种双任务结构能够系统检验模型在对抗性情境下的符号推理与逻辑判断精度。
使用方法
使用该数据集进行评估时,需遵循其设定的标准化协议。对于每个测试实例,模型需基于给定的文本化棋盘状态,通过思维链推理过程,依次回答关于己方与对手是否存在四子连线获胜步法的问题。评估环节将从模型生成的推理链条中提取最终答案,并与引擎验证过的标准答案进行比对。这种方法不仅考核模型的最终输出正确性,也间接考察其内部推理过程的透明性与逻辑一致性,为衡量大语言模型的游戏推理与规划能力提供了清晰、可复现的基准。
背景与挑战
背景概述
在人工智能领域,符号推理与前瞻规划能力是评估大型语言模型认知深度的关键维度。Connect4推理任务数据集应运而生,由Wenye Lin等研究人员于2025年通过GAMEBoT框架构建,旨在系统检验模型在确定性环境中的棋盘状态解析与战略推演性能。该数据集以经典的Connect4游戏为载体,将六乘七的网格状态序列化为文本格式,其状态空间复杂度高达约4.5×10^12,为核心研究问题——即模型在受限符号环境下的逻辑推理与多步规划能力——提供了严谨的评估基准,对推进可解释人工智能与游戏理论交叉研究具有显著影响力。
当前挑战
该数据集致力于解决复杂游戏环境中符号推理的评估挑战,其核心难题在于如何让模型在庞大状态空间中准确识别获胜拓扑结构,并完成自我与对手的双重视角推演。构建过程中的挑战同样突出,包括通过随机智能体模拟生成兼具平衡性与战术关键性的棋盘状态分布,以及为避免标签失衡——即模型仅通过简单预测“无获胜步法”获取高准确率——而对空答案样本进行严格的下采样控制,确保数据集的多样性与评估的鲁棒性。
常用场景
经典使用场景
在人工智能与游戏理论交叉领域,Connect4 Reasoning Task数据集被广泛用于评估大型语言模型的符号推理与前瞻规划能力。该数据集通过将六乘七网格的棋盘状态序列化为文本格式,模拟了确定性环境下的连四棋局,要求模型解析棋盘状态并识别潜在的获胜走法。这一经典场景不仅检验模型对结构化信息的理解,还深入探究其在复杂状态空间中的逻辑推演效能,为衡量模型的抽象推理水平提供了标准化基准。
衍生相关工作
围绕该数据集衍生的经典工作主要包括基于GAMEBoT框架的透明化评估体系,以及一系列针对链式思维与符号推理的模型能力分析研究。这些工作深入探讨了语言模型在棋盘游戏中的状态解析、多步规划与对抗策略生成机制,并催生了面向复杂决策任务的评测基准扩展,进一步推动了人工智能在逻辑推理与游戏理论领域的交叉创新。
数据集最近研究
最新研究方向
在符号推理与游戏策略领域,Connect4 Reasoning Task数据集正成为评估大型语言模型结构化思维能力的核心工具。该数据集通过序列化棋盘状态,精准模拟了确定性环境下的拓扑识别与前瞻规划任务,直接关联当前人工智能研究中对模型逻辑连贯性与战略决策透明度的迫切需求。前沿探索聚焦于利用此类合成基准测试,深入剖析模型在链式思维中隐含的符号操作缺陷,同时推动对抗数据污染、确保评估鲁棒性的方法创新。这一方向不仅呼应了增强模型可解释性的学术热点,也为构建可靠决策智能系统奠定了实证基础。
以上内容由遇见数据集搜集并总结生成



