five

DSGBench

收藏
github2025-03-13 更新2025-03-13 收录
下载链接:
https://github.com/DeciBrain-Group/DSGBench
下载链接
链接失效反馈
官方服务:
资源简介:
DSGBench是一个新颖的战略游戏基准,旨在评估基于LLM的代理在战略规划、实时决策、适应性和多代理互动中的表现。该基准包括六个高动态、复杂的策略游戏,如《星际争霸II》、《文明》和《街头霸王III》等。它提供了细粒度的评估指标,以及详细的决策轨迹分析和轨迹数据集。

DSGBench is a novel strategic game benchmark designed to evaluate LLM-based AI Agents on strategic planning, real-time decision-making, adaptability, and multi-agent interaction. This benchmark includes six highly dynamic and complex strategy games, such as StarCraft II, Civilization, Street Fighter III, and other similar titles. It provides fine-grained evaluation metrics, as well as detailed decision trajectory analysis and trajectory datasets.
创建时间:
2025-03-07
原始信息汇总

DSGBench 数据集概述

DSGBench是一个新颖的战略游戏基准,旨在评估LLM(大型语言模型)基于的代理在战略规划、实时决策、适应性和多代理交互中的性能。该基准包含六个高动态、复杂的战略游戏,包括《星际争霸II》、《文明》、《街头霸王III》等。它提供了细粒度的度量标准,用于综合评估,以及详细的决策轨迹分析和轨迹数据集。

数据集特点

  • 战略游戏:DSGBench填补了在复杂战略环境中评估代理的重要空白,反映了代理在实际世界应用中的整体能力。

  • 场景多样性:DSGBench提供了多种场景设置,允许全面测试代理的适应性和泛化能力。理想的代理应在多种环境中表现出色,并展示跨场景的泛化能力。

  • 细粒度评估指标和决策轨迹分析:DSGBench采用详细的评估指标,涵盖战略规划、实时决策、适应性和多代理交互。这些细粒度的指标提供了对代理性能的深入定量分析。

  • 轨迹数据集:DSGBench提供了一个全面的决策轨迹数据集,为轨迹微调(Trajectory SFT)和基于代理反馈的强化学习(RL from Agent Feedback)提供了坚实的数据基础。

环境概述

游戏环境

该项目评估环境包括六个动态、复杂的战略游戏:

环境 不完全信息 战略与战术 动态空间 实时与回合制 更多信息
StarCraft II 实时 链接
Civilization 回合制 链接
Street Fighter III 实时 链接
Diplomacy 回合制 链接
Werewolf 回合制 链接
Stratego 回合制 链接

存储结构

  • games:包含6个游戏环境,使用OpenAI Gym接口。
  • agent_manager:实现各种游戏的代理、提示和LLM接口。
  • configs:用于配置评估游戏场景参数和LLM参数。
  • agent_eval:用于计算评估指标。
  • utils:包含公共函数和日志函数。
  • create_yaml.py:生成特定配置。
  • mutiprocess_eval_tasks.py:运行脚本来执行评估。

快速入门

系统要求

  • 操作系统:Windows 11 with WSL
  • Docker管理:Docker Desktop
  • Python:python 3.9.6

游戏设置

  • StarCraft II:安装游戏,下载地图。
  • Civilization:使用Docker镜像作为游戏引擎。
  • Street Fighter III:使用DIAMBRA Arena环境,下载rom。
  • Diplomacy:下载必要的权重文件。
  • WerewolfStratego:无需额外设置。

配置

  • LLM API key:配置模型名称、API密钥和URL。
  • Wandb key:配置W&B API密钥(可选)。

任务配置与运行

  • tasks_config.py中配置任务,然后使用mutiprocess_eval_tasks.py运行任务。

计算模型能力分数

  • 使用calc_score.py脚本计算模型能力分数。

结果结构

  • 结果包括wandb tracetxt result
  • wandb result记录每次运行的具体指标趋势。
  • txt result包含模型在不同游戏场景下的分数。

未来工作

  • 创建统一的数据集、开发层次化评估框架、实现Elo评分系统和统一强化学习框架。

扩展DSGBench

  • 即将发布扩展规范,允许社区贡献新的游戏环境和评估场景。

许可证

  • DSGBench代码库遵循MIT许可证。

致谢

  • 感谢TextStarCraft2、CivRealm、welfare-diplomacy、Stratego Env、llm-colosseum和werewolf_arena等项目的贡献。

引用

bibtex @misc{tang2025dsgbenchdiversestrategicgame, title={DSGBench: A Diverse Strategic Game Benchmark for Evaluating LLM-based Agents in Complex Decision-Making Environments}, author={Wenjie Tang and Yuan Zhou and Erqiang Xu and Keyan Cheng and Minne Li and Liquan Xiao}, year={2025}, eprint={2503.06047}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2503.06047}, }

搜集汇总
数据集介绍
main_image_url
构建方式
DSGBench轨迹数据集的构建旨在评估LLM基于代理人在复杂战略环境中的表现。该数据集通过涵盖六款高动态、复杂的策略游戏,如《星际争霸II》、《文明》等,提供细致的决策轨迹分析以及轨迹数据集,支持精细化的监督微调(SFT)和基于代理人反馈的强化学习(RL)。数据集的构建采用了OpenAI Gym接口,确保了环境的统一性和易用性。
特点
DSGBench的特点在于其战略游戏的多样性,能够全面测试代理人的适应性和泛化能力。它提供了细粒度的评价指标,涵盖战略规划、实时决策、适应性和多代理人交互,这些指标为代理人的性能提供了深入的定量分析。此外,数据集包含了全面的决策轨迹数据,为轨迹微调和强化学习提供了坚实的数据基础。
使用方法
使用DSGBench数据集首先需要配置游戏环境和LLM API,然后通过定义任务配置文件来设定评估任务。运行评估任务时,可以利用提供的脚本进行多进程评估。评估完成后,可以通过计算模型能力分数来量化代理人的表现,结果以Wandb跟踪和文本结果的形式呈现,便于用户分析和理解代理人的性能。
背景与挑战
背景概述
DSGBench Trajectory Dataset是一款新颖的战略游戏基准,旨在评估大型语言模型(LLM)基于的代理人在复杂决策环境中的表现。该数据集由 Wenjie Tang 等人创建于2025年,涵盖了六款高动态、复杂的策略游戏,包括《星际争霸II》、《文明》、《街头霸王III》等。它提供了细粒度的度量和详细的决策轨迹分析,以及轨迹数据集,为轨迹微调(Trajectory SFT)和基于代理人反馈的强化学习(RL from Agent Feedback)提供了坚实的数据基础。
当前挑战
DSGBench在解决领域问题如图像分类的同时,面临以下挑战:1)如何构建一个多样化的游戏场景,以全面测试代理人的适应性和泛化能力;2)如何设计细粒度的评估指标,以深入分析代理人在战略规划、实时决策、适应性和多代理人交互方面的表现;3)如何创建一个统一的轨迹数据集,以支持不同游戏场景下的训练和评估;4)如何实现一个动态的排名系统,以准确反映模型的相对能力。构建过程中遇到的挑战包括游戏的多样性、实时性与回合制的结合、不完整信息的处理等。
常用场景
经典使用场景
DSGBench Trajectory Dataset 被设计用于评估基于大型语言模型(LLM)的智能体在复杂战略环境中的性能。其经典的使用场景包括作为智能体训练和评估的基础,通过提供细致的决策轨迹数据,支持智能体在战略游戏中的策略规划和实时决策制定。该数据集通过模拟多种战略游戏环境,如《星际争霸II》、《文明》等,为智能体提供了丰富的交互场景,以评估其在不同战略情境下的适应性和泛化能力。
衍生相关工作
DSGBench 的发布促进了相关领域的研究工作,包括但不限于创建统一的数据集以覆盖各种战略游戏场景、开发分层评估框架以跟踪智能体的进步、实施 Elo 评分系统以动态评估模型能力,以及开发统一的基于 LLM 的智能体强化学习框架。这些衍生工作进一步扩展了 DSGBench 的应用范围,推动了战略游戏中智能体研究的深入。
数据集最近研究
最新研究方向
DSGBench轨迹数据集填补了评估LLM基于-Agent在复杂战略环境中的性能基准的空白。该数据集结合了六款动态、复杂的战略游戏,为战略规划、实时决策、适应性和多-Agent交互提供了细致的评价指标。近期研究将关注构建统一的数据集以涵盖各种战略游戏场景,开发分层评价框架以逐步增加任务复杂性,引入Elo评级系统以动态反映模型能力,以及开发统一的LLM基于-Agent的强化学习框架,以更好地理解对手并适应复杂的游戏场景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作