VGC-Bench

Name: VGC-Bench
Creator: 德克萨斯大学奥斯汀分校计算机科学系
Published: 2025-06-12 11:19:39
License: 暂无描述

arXiv2025-06-12 更新2025-06-14 收录

下载链接：

https://github.com/cameronangliss/VGC-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

VGC-Bench是一个用于评估AI在竞争性宝可梦视频游戏锦标赛（VGC）中泛化能力的基准数据集。该数据集由德克萨斯大学奥斯汀分校计算机科学系的研究团队创建，旨在提供一个标准化的评价协议，并提供人类游戏数据集和各种基线方法。数据集包含超过330,000个宝可梦VGC游戏的对局数据，这些数据是通过从宝可梦Showdown平台爬取和解析生成的。VGC-Bench的数据集为研究人员提供了一个宝贵的测试平台，用于研究和开发能够适应多样化团队策略的AI代理。

VGC-Bench is a benchmark dataset designed to evaluate the generalization capabilities of AI systems in competitive Pokémon Video Game Championships (VGC). Developed by a research team from the Department of Computer Science at The University of Texas at Austin, this dataset aims to offer a standardized evaluation protocol, alongside human gameplay datasets and a range of baseline methods. Comprising over 330,000 match records from Pokémon VGC games, the dataset was generated through crawling and parsing data from the Pokémon Showdown platform. The VGC-Bench dataset serves as a valuable testbed for researchers to investigate and develop AI agents capable of adapting to diverse team strategies.

提供机构：

德克萨斯大学奥斯汀分校计算机科学系

创建时间：

2025-06-12

原始信息汇总

VGC-Bench数据集概述

数据集基本信息

名称: VGC-Bench
关联论文: VGC-Bench: A Benchmark for Generalizing Across Diverse Team Strategies in Competitive Pokémon
数据类型: 宝可梦VGC对战日志（开放队伍配置）

数据集内容

数据来源: Gen 9 VGC对战记录（全部启用开放队伍配置）
数据获取地址: https://huggingface.co/datasets/cameronangliss/vgc-battle-logs

数据处理功能

对战日志采集 (scrape_data.py)
日志转状态-动作对 (logs2trajs.py)
监督学习预处理流程
强化学习微调流程（支持3种PSRO方法）

应用场景

监督学习训练 (pretrain.py)
强化学习训练 (train.py)
在线对战测试 (play.py)
智能体交叉评估与ELO评级 (eval.py)

技术依赖

Python 3.10
Pip 23
NodeJS/npm（用于Pokemon Showdown）

搜集汇总

数据集介绍

构建方式

VGC-Bench数据集的构建依托于Pokémon Video Game Championships (VGC)这一高度复杂的竞技环境，通过整合多智能体学习框架与人类对战数据采集系统。研究团队首先对Pokémon Showdown平台上的33万场OTS（Open Team Sheets）格式对战录像进行清洗与解析，利用改进后的poke-env库重构对战状态轨迹。为标准化评估流程，团队设计了包含11种基线的基准系统，涵盖从启发式规则、行为克隆到基于博弈论的强化学习方法（如虚拟博弈、双重预言算法等），并通过PettingZoo框架实现多智能体并行训练环境。数据采集过程中特别设置了1200分以上的天梯评级过滤机制，确保人类示范数据的质量。

特点

该数据集最显著的特征在于其组合爆炸式的策略空间，团队配置可能性高达10^139种，远超Dota或星际争霸等传统基准游戏。其核心挑战源于VGC对战的双重特性：离散化的队伍构建与连续化的对战执行，导致最优策略会随双方队伍组合发生剧烈变化。数据集提供精细化的观测空间编码，将每只宝可梦的个体特征（如属性、技能）、场地全局状态（如天气）以及对战历史信息（通过帧堆叠技术）融合为12×(g+s+p)维张量表示。此外，独特的队伍预览机制（从6选4）引入了90种子队伍选择组合，进一步增加了策略评估的复杂性。

使用方法

使用该数据集需遵循分阶段评估协议：首先在单队伍配置下训练智能体达到职业选手水平（基准测试显示BCFP方法可获得83%胜率），随后通过交叉对战矩阵评估多队伍泛化能力。评估体系包含三个维度：1）性能测试，限定在训练队伍集内进行100轮蒙特卡洛交叉验证；2）泛化测试，使用未见过的队伍配置计算胜率衰减曲线；3）可剥削性分析，通过最佳响应策略寻找当前策略漏洞。研究人员可利用内置的ELO评分系统（基于最小二乘法的改进算法）量化智能体水平，或接入Pokémon Showdown天梯进行实战验证。数据集提供的PettingZoo接口支持快速部署种群训练、镜像对战禁用等实验模式。

背景与挑战

背景概述

VGC-Bench是由德克萨斯大学奥斯汀分校的Cameron L. Angliss等研究人员于2025年提出的一个创新性基准测试，专注于评估AI在《宝可梦》视频游戏锦标赛（VGC）中的泛化能力。该数据集针对多智能体学习领域中的核心挑战——即智能体在面对高达10^139种可能的队伍配置时，如何实现跨策略泛化而无需重新训练。作为首个系统化研究VGC竞技场景的基准，VGC-Bench通过标准化评估协议、提供人类对战数据和多样化基线方法（从行为克隆到博弈论算法），填补了复杂策略空间下AI泛化能力研究的空白。其创新性地将宝可梦对战的高组合复杂度与部分可观测性、随机机制等特性相结合，为多智能体学习领域提供了前所未有的挑战维度。

当前挑战

VGC-Bench面临双重挑战：在领域问题层面，需解决竞技宝可梦特有的策略敏感性问题——由于队伍构建的离散组合特性，最优策略会因对战双方队伍配置发生剧变，导致传统算法在单队伍设定表现优异但扩展到多队伍时性能骤降（30支队伍时胜率下降40%）。在构建过程中，研究者需处理三大技术难点：1) 部分可观测性下信息集规模达10^59的决策复杂度；2) 同步动作机制带来的非平稳性及信用分配难题；3) 对战日志中状态重建的不确定性，需通过开放队伍表(OTS)机制进行近似补偿。实验表明，即使最佳基线方法在单队伍设定能击败职业选手，其跨队伍泛化时仍存在显著性能衰减，证实策略泛化仍是待突破的核心难题。

常用场景

经典使用场景

在人工智能多智能体学习领域，VGC-Bench数据集被广泛应用于评估AI代理在复杂策略环境中的泛化能力。该数据集通过模拟宝可梦视频游戏锦标赛（VGC）中的多样化团队配置，为研究者提供了一个高度离散且组合性极强的测试平台。经典使用场景包括训练AI代理在无需重新训练的情况下适应不同的团队策略，从而验证其在多智能体环境中的鲁棒性和适应性。

衍生相关工作

VGC-Bench数据集衍生了一系列经典研究工作，包括基于行为克隆（BC）的模仿学习、基于种群训练的强化学习（如PPO）以及博弈论方法（如自我博弈、虚拟博弈和双重预言）。这些方法在单团队配置下表现出色，但在多团队泛化中仍面临挑战。相关研究还改进了Poke-env库，增强了其对多智能体框架PettingZoo的支持，推动了宝可梦AI研究的进一步发展。

数据集最近研究