CHESS-WORLD-MODEL

Name: CHESS-WORLD-MODEL
Creator: 牛津大学·数学研究所; 帝国理工学院·数学系
Published: 2026-05-28 23:43:31
License: 暂无描述

arXiv2026-05-28 更新2026-05-30 收录

下载链接：

https://github.com/Benjamin-Walker/Chess-World-Model

下载链接

链接失效反馈

官方服务：

资源简介：

CHESS-WORLD-MODEL是由牛津大学与帝国理工学院联合构建的大规模国际象棋状态追踪基准数据集，旨在评估序列模型在现实确定性动作领域中的精确状态维护能力。该数据集源自公开的Lichess开放数据库，包含1000万场真实对局，每条数据由国际象棋着法序列与对应的完整棋盘状态（包括棋子位置及辅助变量）精确对齐构成，通过UCI着法编码和75个分类标签实现结构化表示。其创建过程通过对原始PGN格式游戏进行轨迹对齐和预处理，生成了训练集、保留验证集及随机均匀测试集，后者通过均匀随机合法着法生成以检验模型对规则而非人类对局模式的泛化能力。该数据集主要应用于序列模型架构比较、世界模型状态更新机制研究，以及揭示模型规模可能掩盖的状态追踪失败问题，为开发具有可靠状态跟踪能力的学习型世界模型提供了实践基础。

CHESS-WORLD-MODEL is a large-scale chess state-tracking benchmark dataset jointly constructed by the University of Oxford and Imperial College London, aimed at evaluating the precise state maintenance ability of sequence models in real-world deterministic action domains. Derived from the public Lichess open database, it contains 10 million real chess games. Each data entry comprises precisely aligned chess move sequences and their corresponding full board states, including piece positions and auxiliary variables, and is structured using UCI move encoding and 75 classification tags. During its development, raw games in PGN format undergo trajectory alignment and preprocessing to produce the training set, held-out validation set, and randomly uniform test set. The test set is generated via uniformly random legal moves to examine the model's generalization to chess rules rather than human gameplay patterns. This dataset is primarily utilized for sequence model architecture comparison, research on world model state update mechanisms, and uncovering state tracking failure issues that may be masked by model scale, providing a practical foundation for developing learned world models with reliable state tracking capabilities.

提供机构：

牛津大学·数学研究所; 帝国理工学院·数学系

创建时间：

2026-05-28

原始信息汇总

Chess-World-Model 数据集总结

数据集概述

Chess-World-Model 是一个包含 1000万局棋局 的基准测试数据集，用于评估序列模型从国际象棋走棋序列中精确跟踪棋盘状态的能力。数据集的核心任务不是下棋，而是给定合法的UCI走棋序列后，模型必须在每个游戏前缀后重建完整的棋局状态。

数据来源与构成

数据来源

真实对局来自 Lichess 开放数据库（CC0 许可）
训练/验证集使用 2025年3月 的Lichess标准评级对局
保留测试集使用 2025年4月 的Lichess对局

数据分布

分布内数据：来自人类真实对局
分布外数据：通过均匀采样合法随机走棋生成，用于测试模型在非人类轨迹下的状态跟踪能力

数据规模与格式

项目	详细信息
总游戏数	最多1000万局
最小回合要求	至少10个完整回合（min_fullmoves=10）
数据分片	每片100万局游戏
数据格式	分片的JSONL文件，包含对齐的走棋序列与状态

状态表示

每个时间步预测 75个分类状态标签，包括：

全部64个棋盘格子的棋子位置
FEN格式辅助变量（行棋方、王车易位权、过路兵状态、回合计数器）

配套模型

数据集中提供了四种序列模型的训练协议：

模型家族	参数规模（约）	依赖
Transformer	3M-38M	基础安装
SLiCE	3M-38M	基础安装
Gated DeltaNet	3M-38M	flash-linear-attention
Mamba-3	3M-38M	mamba-ssm

许可信息

数据集代码：MIT 许可
Lichess 数据库导出：CC0 许可（由 Lichess 单独分发）

搜集汇总

数据集介绍

构建方式

CHESS-WORLD-MODEL基准测试构建于源自Lichess开放数据库的1000万局真实对局之上，通过将每局对局的合法着法序列与每一步后的完整棋盘状态对齐，构建了序列到序列的预测任务。具体而言，每个样例包含一个起始符号与后续的一串UCI格式着法编码，模型需预测每个前缀时刻对应的75个类别标签，包括棋子分布、走子方、王车易位权、过路兵信息、半步时钟与完整步数计数。此外，基准还纳入了通过均匀随机合法走法生成的10万局分布外测试集，以检测模型是否真正学习了象棋的转移规则而非仅利用人类对局的数据偏倚。

使用方法

用户可从公开仓库获取数据构建、随机均匀测试集生成及模型训练的完整代码。基准提供了一套统一的预测接口：模型接收固定词表（20482个标记，含20480种着法几何与两个特殊符号）编码的着法序列，输出分解为75个类别头的棋盘状态预测。训练采用逐目标交叉熵损失的掩码求和方式，并基于精确状态准确率、标签级准确率与轨迹精确率等指标进行多维度评估。研究者可通过开源工具直接复现论文中的Transformer、SLiCE、Mamba-3与Gated DeltaNet对比实验，或引入新架构在此标准化设置下进行公平比较。

背景与挑战

背景概述

CHESS-WORLD-MODEL是由牛津大学数学研究所的Benjamin Walker和Terry Lyons等人于2025年创建的基准测试，旨在评估序列模型在精确状态追踪方面的能力。该数据集基于Lichess开放数据库中的1000万场真实国际象棋对局构建，要求模型从合法的棋步序列中预测出完整的棋盘状态，包括棋子布局和辅助变量。其核心研究问题在于，现代序列模型能否在现实世界的确定性动作领域中维护结构化的潜在状态。该基准的影响力在于，它超越了传统合成任务或语言任务的局限，为评估模型在结构化状态更新上的表现提供了一个大规模、可精确验证的平台，尤其适用于检验世界模型中的状态追踪能力。

当前挑战

该数据集所解决的领域问题在于，现有世界模型任务常将状态追踪与感知、奖励预测或语言理解耦合，导致难以定位失败原因；而合成任务虽能隔离计算，却因规模小或规则性强，使得模型可通过捷径或记忆掩盖状态追踪缺陷。构建过程中面临的挑战包括：确保模型从棋步序列中学习到真正的规则一致的状态更新，而非仅记忆常见人类对局中的模式；设计区分性的分布外测试集（均匀随机合法走法），以暴露模型在偏离人类对局分布时的失效；以及克服在较大模型规模下，分布内性能饱和后难以区分架构优劣的问题，从而建立持续具有判别力的评估基准。

常用场景

经典使用场景

在国际象棋这一确定性、完全可观测且规则精确的动作领域中，CHESS-WORLD-MODEL被设计为一种大规模序列到序列的状态追踪基准。其核心任务要求模型仅依据合法着法序列，逐前缀重建完整的棋局状态，包括棋子布局、走子方、王车易位权、过路兵信息以及半步时钟和全步计数。这一任务设置既保留了真实世界的结构化动态，又提供了完全可验证的监督信号，从而为评估序列模型维护精确隐状态的能力提供了一个兼具现实性与可控性的理想测试平台。

解决学术问题

该基准旨在解决当前世界模型评估中状态追踪能力难以被精确分离和测量的核心问题。现有基准或混杂感知、规划与语言理解等干扰因素，或依赖合成任务而缺乏真实动作分布下的挑战。CHESS-WORLD-MODEL通过引入基于均匀随机合法走法的分布外测试分割，能够有效揭示模型在面对偏离人类常规着法的合法轨迹时状态更新的脆弱性，从而辨识出模型是否真正习得了底层规则而非仅仅记忆了人类对局的统计模式。这一设计填补了在高容量模型规模增大后，分布内性能饱和状态下评估状态更新鲁棒性的空白。

实际应用

在实际应用中，CHESS-WORLD-MODEL可作为发展更可靠世界模型的关键诊断工具。通过系统性地测试序列模型在结构化动态环境中的隐状态维持能力，该基准能够指导设计具有更强泛化能力和规则一致性状态更新机制的神经网络架构。具体而言，它有助于筛选和验证适用于机器人控制、自动驾驶、环境模拟等需要在线准确追踪复杂隐状态领域的循环神经网络或状态空间模型，从而推动将精确因果状态追踪能力从受控的棋盘环境迁移到更广泛的现实世界决策系统中。

数据集最近研究