five

lmwilkin/civbench

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/lmwilkin/civbench
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个关于LLM代理玩《文明VI》游戏的基准测试数据集,包含了通过civ6-mcp MCP服务器进行的完整游戏状态、每个回合的工具调用以及代理的结构化反思。数据集分为两个配置:tables包含经过整理的parquet表格,每行代表一个逻辑记录;raw则是原始JSONL流的字节镜像。此外,数据集还提供了AI侧边栏的完整LLM消息跟踪。数据集的模式声明在Croissant 1.1文件中,跨表连接基于gameId。数据集中的每个游戏行都有一个admissible标志,表示是否通过了标准过滤器。

A benchmark of LLM agents playing full games of Civilization VI through the civ6-mcp MCP server. Each run captures the full per-turn game state, every tool call the agent issued, and the agents own structured reflections. The dataset is divided into two configurations: tables contains curated parquet tables with one row per logical record, and raw is a byte-identical mirror of the on-disk telemetry JSONL streams. Additionally, the dataset provides full LLM message traces in the AI sidecar. The schema declaration is in the Croissant 1.1 file, with cross-table joins on gameId. Each row in the games table carries an admissible flag indicating whether the run passed standard filters.
提供机构:
lmwilkin
搜集汇总
数据集介绍
main_image_url
构建方式
civbench数据集通过civ6-mcp服务器记录智能体在《文明VI》完整对局中的行为轨迹而构建。每一轮游戏对局均被捕捉为完整的回合制状态快照,包含智能体发出的每一次工具调用指令及其结构化的自我反思文本。原始数据以JSONL流格式持久化存储于磁盘,随后被整理为Parquet表格格式,每张表对应一类逻辑实体(游戏、玩家、城市、工具调用等),并通过gameId字段实现跨表关联。
特点
该数据集的核心优势在于其高保真度和结构化程度。它完整记录了智能体在长周期、多回合策略游戏中的决策链条,不仅包含环境状态(如城市产出、单位构成),还保留了智能体的内部推理过程。此外,每个游戏局均附有`admissible`标记,用于筛选符合标准的有效对局,确保评估榜单的可靠性。嵌套字段以JSON编码存储,兼顾了表达灵活性与解析效率。
使用方法
研究者可通过HuggingFace Datasets库便捷加载数据,选择`tables`配置以获取分析友好的Parquet表,或使用`raw`配置获取原始JSONL流进行深度回放。对于需要完整LLM交互轨迹的场景,可配合加载Inspect AI侧车日志文件。官方提供的Croissant元数据文件`croissant.json`是权威的模式声明,适用于自动化数据管道集成。数据适用于多轮决策、长期规划与工具使用等智能体能力的评估与基准测试。
背景与挑战
背景概述
civbench数据集由Liam Wilkinson于2026年创建,旨在评估大语言模型(LLM)代理在复杂策略游戏《文明VI》中的长期决策能力。作为首个通过MCP服务器实现LLM代理与游戏环境交互的基准测试,该数据集捕获了完整的多回合游戏状态、工具调用序列及代理的结构化反思,为研究具身智能体的长程规划、工具使用和多步推理提供了标准化评估平台。其发布填补了现有LLM基准测试中缺乏长期动态交互场景的空白,对推动自主代理在复杂环境中的泛化能力研究具有重要影响。
当前挑战
civbench所解决的领域挑战在于,现有LLM评估多聚焦于单轮对话或静态任务,而《文明VI》要求代理在数百回合内管理经济、外交、军事等动态平衡,面临长期信用分配与高度非平稳环境的难题。数据集构建过程中,需应对游戏状态的高维稀疏性(如数千回合中仅少量关键决策)、工具调用的组合爆炸,以及确保运行可复现性的技术挑战,包括处理游戏引擎的非确定性并过滤无效运行(如低于10回合或存档重载)。此外,跨回合异构数据的结构化存储(如空间图和时序文本)也增加了数据归一化的复杂性。
常用场景
经典使用场景
在人工智能与复杂策略游戏交叉研究的前沿领域,CivBench作为一个专为大语言模型智能体设计的基准数据集,其最经典的使用场景是评估LLM在完整《文明VI》游戏过程中执行多步推理、长期规划和工具调用的综合能力。该数据集收录了每一回合的完整游戏状态快照、智能体发出的所有工具调用记录以及其结构化反思内容,使得研究者能够对智能体的决策链进行细粒度的追踪与分析。通过设定可准入筛选条件(如至少完成10回合、禁止回溯操控等),CivBench为标准化比较不同LLM在复杂策略环境下的表现提供了可靠的基础设施。
衍生相关工作
围绕CivBench的独特设计,一系列衍生工作正逐渐涌现。基于其精细化的工具调用日志,研究者构建了专门用于分析LLM工具选择偏差的诊断框架;利用空间回合数据(spatial_turns),有工作探索了将视觉语言模型与策略推理融合的新范式。同时,该数据集的结构化表格(tables)配置催生了多个针对长期规划能力的评价指标,如决策累积奖励分解与策略一致性度量。一些团队还将其与inspect AI的日志系统结合,发展出面向智能体反思质量与自我纠错效率的评估方法学。这些衍生工作不仅验证了CivBench作为基准的潜力,也推动了大语言模型在开放世界决策任务中的方法论创新。
数据集最近研究
最新研究方向
civbench数据集聚焦于大型语言模型(LLM)在复杂策略游戏《文明VI》中的长期决策与工具调用能力评估,代表了智能体在长时域、多回合交互场景下的前沿研究方向。当前,随着LLM代理在自动化任务、游戏AI和模拟环境中的广泛应用,该数据集通过记录完整的游戏状态、工具调用轨迹及模型结构化反思,为衡量智能体的策略规划、资源管理和适应性提供了标准化基准。其与MCP(Model Context Protocol)服务器结合的设计,突显了将LLM嵌入真实交互系统的热点趋势,对推动具身智能、多智能体协作及人机协同决策的研究具有重要影响,同时为评估模型在开放世界中的泛化能力和鲁棒性设立了新标杆。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作