DSGBench

Name: DSGBench
Creator: 国防科技大学, 北京, 中国
Published: 2025-03-08 12:17:23
License: 暂无描述

arXiv2025-03-08 更新2025-03-12 收录

下载链接：

https://github.com/DeciBrain-Group/DSGBench

下载链接

链接失效反馈

官方服务：

资源简介：

DSGBench是一个综合性的战略游戏基准，旨在评估LLM型代理人在复杂决策环境中的战略决策能力。该数据集整合了六款复杂的战略游戏，这些游戏因其长期、多维度的决策需求和灵活定制的任务难度或多个目标而被选为理想的测试平台。DSGBench采用精细化的评分系统，通过五个特定维度的表现来全面评估代理人的决策制定能力。此外，DSGBench还包含了自动化决策追踪机制，能够深入分析代理人的行为模式和策略变化。

DSGBench is a comprehensive strategy game benchmark aimed at evaluating the strategic decision-making capabilities of LLM-based agents in complex decision-making environments. This benchmark integrates six complex strategy games, which are selected as ideal test platforms due to their requirements for long-term, multi-dimensional decision-making, as well as flexible customization of task difficulty or multiple objectives. DSGBench adopts a sophisticated scoring system to comprehensively evaluate agents' decision-making abilities based on their performance across five specific dimensions. Additionally, DSGBench is equipped with an automated decision tracking mechanism that enables in-depth analysis of agents' behavioral patterns and strategic shifts.

提供机构：

国防科技大学, 北京, 中国

创建时间：

2025-03-08

搜集汇总

数据集介绍

构建方式

DSGBench的构建方式是通过整合六个复杂的战略游戏，这些游戏因其长期和多维度的决策需求以及定制不同难度级别或多个目标的任务的灵活性而被选为理想的测试平台。这些游戏包括《星际争霸II》、《文明》、《街头霸王III》、《外交》、《狼人杀》和《策略大师》。DSGBench采用细粒度的评分系统，通过五个特定维度来评估决策能力，并提供了一种全面的评估方式。此外，DSGBench还集成了一个自动化的决策跟踪机制，使研究人员能够深入分析代理的行为模式和策略的变化。

特点

DSGBench的特点包括：1) 多样化和复杂的战略游戏，这些游戏能够全面评估代理的适应性和认知整合能力；2) 细粒度的评估评分系统，通过五个特定维度（战略规划、实时决策、社交推理、团队合作和自适应学习）来评估代理的表现；3) 自动化的决策跟踪机制，提供对代理决策过程的深入分析，并有助于提高模型的可解释性和代理设计的改进。

使用方法

使用DSGBench的方法包括：1) 将LLM-based代理与内置AI或其他LLM-based代理作为对手进行对战；2) 根据需要调整场景变量，如对手行为模式、交互模式（同步或异步）、提示工程方法等；3) 利用DSGBench提供的标准化接口和自定义游戏场景功能，方便地进行新游戏的集成和现有游戏的扩展；4) 通过DSGBench的自动评分过程，对LLM-based代理在不同游戏环境中的表现进行全面评估。

背景与挑战

背景概述

DSGBench是一个用于评估基于大型语言模型（LLM）的智能体在复杂决策环境中的战略决策能力的评估平台。该平台由来自中国国防科技大学和智能游戏与决策实验室（IGDL）的研究人员于2025年3月首次提出。DSGBench旨在解决现有评估系统在复杂决策任务评估方面的不足，通过引入六种复杂的战略游戏作为测试平台，这些游戏要求长期和多维度的决策，并具有定制各种难度级别或多个目标的任务的灵活性。此外，DSGBench采用细粒度的评估评分系统，通过在五个特定维度上检查性能来评估决策能力，并提供一个全面而精心设计的评估。DSGBench还集成了一个自动化的决策跟踪机制，可以深入分析智能体的行为模式和策略的变化。通过将DSGBench应用于多个流行的LLM智能体，研究人员证明了其在选择LLM智能体以及改进其未来发展方面的价值。DSGBench的可用性在https://github.com/DeciBrain-Group/DSGBench1得到保证。

当前挑战

DSGBench面临的挑战包括：1)所解决的领域问题的挑战，即如何在复杂决策环境中全面评估LLM智能体的实际能力；2)构建过程中的挑战，包括如何确保评估系统的公正性和客观性，以及如何处理动态变化的环境和不断变化的目标。此外，DSGBench还需要解决现有评估框架在复杂决策环境下的局限性，例如缺乏对动态情况和不断变化的目标的考虑，以及过于宽泛的评估指标难以评估LLM智能体的优势和劣势。DSGBench通过引入六种复杂的战略游戏，采用细粒度的评估评分系统和自动化的决策跟踪机制，旨在解决这些挑战，并为LLM智能体的评估和发展提供更深入的理解。

常用场景

经典使用场景

DSGBench 数据集主要用于评估基于大型语言模型（LLM）的智能体在复杂决策环境中的战略决策能力。该数据集包含了六种复杂的战略游戏，如星际争霸II、文明、街头霸王III、外交、狼人杀和策略游戏，这些游戏要求智能体具备长期和多维度的决策能力，并能够适应各种难度级别或多个目标的任务。DSGBench 还采用了一种细粒度的评估评分系统，通过分析智能体在五个特定维度上的表现来评估其决策能力，并以一种精心设计的方式提供全面的评估。

衍生相关工作

DSGBench 数据集衍生了一些相关的工作，例如 AgentBench、SmartPlay、GameBench、GTBench 和 MAgIC。这些工作主要集中在评估 LLM 基于智能体的特定能力或任务，而 DSGBench 则提供了一个更全面的评估框架，可以评估 LLM 基于智能体在复杂决策环境中的多维度认知和交互能力。此外，DSGBench 还可以用于开发新的 LLM 基于智能体，这些智能体可以应用于更复杂的场景，例如开放世界和战略游戏。

数据集最近研究