lmwilkin/civbench

Name: lmwilkin/civbench
Creator: lmwilkin
Published: 2026-05-01 12:18:28
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/lmwilkin/civbench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个关于LLM代理玩《文明VI》游戏的基准测试数据集，包含了通过civ6-mcp MCP服务器进行的完整游戏状态、每个回合的工具调用以及代理的结构化反思。数据集分为两个配置：tables包含经过整理的parquet表格，每行代表一个逻辑记录；raw则是原始JSONL流的字节镜像。此外，数据集还提供了AI侧边栏的完整LLM消息跟踪。数据集的模式声明在Croissant 1.1文件中，跨表连接基于gameId。数据集中的每个游戏行都有一个admissible标志，表示是否通过了标准过滤器。

A benchmark of LLM agents playing full games of Civilization VI through the civ6-mcp MCP server. Each run captures the full per-turn game state, every tool call the agent issued, and the agents own structured reflections. The dataset is divided into two configurations: tables contains curated parquet tables with one row per logical record, and raw is a byte-identical mirror of the on-disk telemetry JSONL streams. Additionally, the dataset provides full LLM message traces in the AI sidecar. The schema declaration is in the Croissant 1.1 file, with cross-table joins on gameId. Each row in the games table carries an admissible flag indicating whether the run passed standard filters.

提供机构：

lmwilkin

搜集汇总

数据集介绍

构建方式

civbench数据集通过civ6-mcp服务器记录智能体在《文明VI》完整对局中的行为轨迹而构建。每一轮游戏对局均被捕捉为完整的回合制状态快照，包含智能体发出的每一次工具调用指令及其结构化的自我反思文本。原始数据以JSONL流格式持久化存储于磁盘，随后被整理为Parquet表格格式，每张表对应一类逻辑实体（游戏、玩家、城市、工具调用等），并通过gameId字段实现跨表关联。

特点

该数据集的核心优势在于其高保真度和结构化程度。它完整记录了智能体在长周期、多回合策略游戏中的决策链条，不仅包含环境状态（如城市产出、单位构成），还保留了智能体的内部推理过程。此外，每个游戏局均附有`admissible`标记，用于筛选符合标准的有效对局，确保评估榜单的可靠性。嵌套字段以JSON编码存储，兼顾了表达灵活性与解析效率。

使用方法

研究者可通过HuggingFace Datasets库便捷加载数据，选择`tables`配置以获取分析友好的Parquet表，或使用`raw`配置获取原始JSONL流进行深度回放。对于需要完整LLM交互轨迹的场景，可配合加载Inspect AI侧车日志文件。官方提供的Croissant元数据文件`croissant.json`是权威的模式声明，适用于自动化数据管道集成。数据适用于多轮决策、长期规划与工具使用等智能体能力的评估与基准测试。

背景与挑战

背景概述

civbench数据集由Liam Wilkinson于2026年创建，旨在评估大语言模型（LLM）代理在复杂策略游戏《文明VI》中的长期决策能力。作为首个通过MCP服务器实现LLM代理与游戏环境交互的基准测试，该数据集捕获了完整的多回合游戏状态、工具调用序列及代理的结构化反思，为研究具身智能体的长程规划、工具使用和多步推理提供了标准化评估平台。其发布填补了现有LLM基准测试中缺乏长期动态交互场景的空白，对推动自主代理在复杂环境中的泛化能力研究具有重要影响。

当前挑战

civbench所解决的领域挑战在于，现有LLM评估多聚焦于单轮对话或静态任务，而《文明VI》要求代理在数百回合内管理经济、外交、军事等动态平衡，面临长期信用分配与高度非平稳环境的难题。数据集构建过程中，需应对游戏状态的高维稀疏性（如数千回合中仅少量关键决策）、工具调用的组合爆炸，以及确保运行可复现性的技术挑战，包括处理游戏引擎的非确定性并过滤无效运行（如低于10回合或存档重载）。此外，跨回合异构数据的结构化存储（如空间图和时序文本）也增加了数据归一化的复杂性。

常用场景

经典使用场景

在人工智能与复杂策略游戏交叉研究的前沿领域，CivBench作为一个专为大语言模型智能体设计的基准数据集，其最经典的使用场景是评估LLM在完整《文明VI》游戏过程中执行多步推理、长期规划和工具调用的综合能力。该数据集收录了每一回合的完整游戏状态快照、智能体发出的所有工具调用记录以及其结构化反思内容，使得研究者能够对智能体的决策链进行细粒度的追踪与分析。通过设定可准入筛选条件（如至少完成10回合、禁止回溯操控等），CivBench为标准化比较不同LLM在复杂策略环境下的表现提供了可靠的基础设施。

衍生相关工作

围绕CivBench的独特设计，一系列衍生工作正逐渐涌现。基于其精细化的工具调用日志，研究者构建了专门用于分析LLM工具选择偏差的诊断框架；利用空间回合数据（spatial_turns），有工作探索了将视觉语言模型与策略推理融合的新范式。同时，该数据集的结构化表格（tables）配置催生了多个针对长期规划能力的评价指标，如决策累积奖励分解与策略一致性度量。一些团队还将其与inspect AI的日志系统结合，发展出面向智能体反思质量与自我纠错效率的评估方法学。这些衍生工作不仅验证了CivBench作为基准的潜力，也推动了大语言模型在开放世界决策任务中的方法论创新。

数据集最近研究