DSGBench

github2025-03-13 更新2025-03-13 收录

下载链接：

https://github.com/DeciBrain-Group/DSGBench

下载链接

链接失效反馈

官方服务：

资源简介：

DSGBench是一个新颖的战略游戏基准，旨在评估基于LLM的代理在战略规划、实时决策、适应性和多代理互动中的表现。该基准包括六个高动态、复杂的策略游戏，如《星际争霸II》、《文明》和《街头霸王III》等。它提供了细粒度的评估指标，以及详细的决策轨迹分析和轨迹数据集。

DSGBench is a novel strategic game benchmark designed to evaluate LLM-based AI Agents on strategic planning, real-time decision-making, adaptability, and multi-agent interaction. This benchmark includes six highly dynamic and complex strategy games, such as StarCraft II, Civilization, Street Fighter III, and other similar titles. It provides fine-grained evaluation metrics, as well as detailed decision trajectory analysis and trajectory datasets.

创建时间：

2025-03-07

原始信息汇总

DSGBench 数据集概述

DSGBench是一个新颖的战略游戏基准，旨在评估LLM（大型语言模型）基于的代理在战略规划、实时决策、适应性和多代理交互中的性能。该基准包含六个高动态、复杂的战略游戏，包括《星际争霸II》、《文明》、《街头霸王III》等。它提供了细粒度的度量标准，用于综合评估，以及详细的决策轨迹分析和轨迹数据集。

数据集特点

战略游戏：DSGBench填补了在复杂战略环境中评估代理的重要空白，反映了代理在实际世界应用中的整体能力。
场景多样性：DSGBench提供了多种场景设置，允许全面测试代理的适应性和泛化能力。理想的代理应在多种环境中表现出色，并展示跨场景的泛化能力。
细粒度评估指标和决策轨迹分析：DSGBench采用详细的评估指标，涵盖战略规划、实时决策、适应性和多代理交互。这些细粒度的指标提供了对代理性能的深入定量分析。
轨迹数据集：DSGBench提供了一个全面的决策轨迹数据集，为轨迹微调（Trajectory SFT）和基于代理反馈的强化学习（RL from Agent Feedback）提供了坚实的数据基础。

环境概述

游戏环境

该项目评估环境包括六个动态、复杂的战略游戏：

环境	不完全信息	战略与战术	动态空间	实时与回合制	更多信息
StarCraft II	✔	✔	✔	实时	链接
Civilization	✔	✔	✔	回合制	链接
Street Fighter III	✘	✘	✘	实时	链接
Diplomacy	✘	✔	✘	回合制	链接
Werewolf	✔	✔	✘	回合制	链接
Stratego	✔	✔	✘	回合制	链接

存储结构

games：包含6个游戏环境，使用OpenAI Gym接口。
agent_manager：实现各种游戏的代理、提示和LLM接口。
configs：用于配置评估游戏场景参数和LLM参数。
agent_eval：用于计算评估指标。
utils：包含公共函数和日志函数。
create_yaml.py：生成特定配置。
mutiprocess_eval_tasks.py：运行脚本来执行评估。

快速入门

系统要求

操作系统：Windows 11 with WSL
Docker管理：Docker Desktop
Python：python 3.9.6

游戏设置

StarCraft II：安装游戏，下载地图。
Civilization：使用Docker镜像作为游戏引擎。
Street Fighter III：使用DIAMBRA Arena环境，下载rom。
Diplomacy：下载必要的权重文件。
Werewolf和Stratego：无需额外设置。

配置

LLM API key：配置模型名称、API密钥和URL。
Wandb key：配置W&B API密钥（可选）。

任务配置与运行

在tasks_config.py中配置任务，然后使用mutiprocess_eval_tasks.py运行任务。

计算模型能力分数

使用calc_score.py脚本计算模型能力分数。

结果结构

结果包括wandb trace和txt result。
wandb result记录每次运行的具体指标趋势。
txt result包含模型在不同游戏场景下的分数。

未来工作

创建统一的数据集、开发层次化评估框架、实现Elo评分系统和统一强化学习框架。

扩展DSGBench

即将发布扩展规范，允许社区贡献新的游戏环境和评估场景。

许可证

DSGBench代码库遵循MIT许可证。

致谢

感谢TextStarCraft2、CivRealm、welfare-diplomacy、Stratego Env、llm-colosseum和werewolf_arena等项目的贡献。

引用

bibtex @misc{tang2025dsgbenchdiversestrategicgame, title={DSGBench: A Diverse Strategic Game Benchmark for Evaluating LLM-based Agents in Complex Decision-Making Environments}, author={Wenjie Tang and Yuan Zhou and Erqiang Xu and Keyan Cheng and Minne Li and Liquan Xiao}, year={2025}, eprint={2503.06047}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2503.06047}, }

搜集汇总

数据集介绍

构建方式

DSGBench轨迹数据集的构建旨在评估LLM基于代理人在复杂战略环境中的表现。该数据集通过涵盖六款高动态、复杂的策略游戏，如《星际争霸II》、《文明》等，提供细致的决策轨迹分析以及轨迹数据集，支持精细化的监督微调（SFT）和基于代理人反馈的强化学习（RL）。数据集的构建采用了OpenAI Gym接口，确保了环境的统一性和易用性。

特点

DSGBench的特点在于其战略游戏的多样性，能够全面测试代理人的适应性和泛化能力。它提供了细粒度的评价指标，涵盖战略规划、实时决策、适应性和多代理人交互，这些指标为代理人的性能提供了深入的定量分析。此外，数据集包含了全面的决策轨迹数据，为轨迹微调和强化学习提供了坚实的数据基础。

使用方法

使用DSGBench数据集首先需要配置游戏环境和LLM API，然后通过定义任务配置文件来设定评估任务。运行评估任务时，可以利用提供的脚本进行多进程评估。评估完成后，可以通过计算模型能力分数来量化代理人的表现，结果以Wandb跟踪和文本结果的形式呈现，便于用户分析和理解代理人的性能。

背景与挑战

背景概述

DSGBench Trajectory Dataset是一款新颖的战略游戏基准，旨在评估大型语言模型（LLM）基于的代理人在复杂决策环境中的表现。该数据集由 Wenjie Tang 等人创建于2025年，涵盖了六款高动态、复杂的策略游戏，包括《星际争霸II》、《文明》、《街头霸王III》等。它提供了细粒度的度量和详细的决策轨迹分析，以及轨迹数据集，为轨迹微调（Trajectory SFT）和基于代理人反馈的强化学习（RL from Agent Feedback）提供了坚实的数据基础。

当前挑战

DSGBench在解决领域问题如图像分类的同时，面临以下挑战：1）如何构建一个多样化的游戏场景，以全面测试代理人的适应性和泛化能力；2）如何设计细粒度的评估指标，以深入分析代理人在战略规划、实时决策、适应性和多代理人交互方面的表现；3）如何创建一个统一的轨迹数据集，以支持不同游戏场景下的训练和评估；4）如何实现一个动态的排名系统，以准确反映模型的相对能力。构建过程中遇到的挑战包括游戏的多样性、实时性与回合制的结合、不完整信息的处理等。

常用场景

经典使用场景

DSGBench Trajectory Dataset 被设计用于评估基于大型语言模型（LLM）的智能体在复杂战略环境中的性能。其经典的使用场景包括作为智能体训练和评估的基础，通过提供细致的决策轨迹数据，支持智能体在战略游戏中的策略规划和实时决策制定。该数据集通过模拟多种战略游戏环境，如《星际争霸II》、《文明》等，为智能体提供了丰富的交互场景，以评估其在不同战略情境下的适应性和泛化能力。

衍生相关工作

DSGBench 的发布促进了相关领域的研究工作，包括但不限于创建统一的数据集以覆盖各种战略游戏场景、开发分层评估框架以跟踪智能体的进步、实施 Elo 评分系统以动态评估模型能力，以及开发统一的基于 LLM 的智能体强化学习框架。这些衍生工作进一步扩展了 DSGBench 的应用范围，推动了战略游戏中智能体研究的深入。

数据集最近研究