five

VGC-Bench

收藏
arXiv2025-06-12 更新2025-06-14 收录
下载链接:
https://github.com/cameronangliss/VGC-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
VGC-Bench是一个用于评估AI在竞争性宝可梦视频游戏锦标赛(VGC)中泛化能力的基准数据集。该数据集由德克萨斯大学奥斯汀分校计算机科学系的研究团队创建,旨在提供一个标准化的评价协议,并提供人类游戏数据集和各种基线方法。数据集包含超过330,000个宝可梦VGC游戏的对局数据,这些数据是通过从宝可梦Showdown平台爬取和解析生成的。VGC-Bench的数据集为研究人员提供了一个宝贵的测试平台,用于研究和开发能够适应多样化团队策略的AI代理。

VGC-Bench is a benchmark dataset designed to evaluate the generalization capabilities of AI systems in competitive Pokémon Video Game Championships (VGC). Developed by a research team from the Department of Computer Science at The University of Texas at Austin, this dataset aims to offer a standardized evaluation protocol, alongside human gameplay datasets and a range of baseline methods. Comprising over 330,000 match records from Pokémon VGC games, the dataset was generated through crawling and parsing data from the Pokémon Showdown platform. The VGC-Bench dataset serves as a valuable testbed for researchers to investigate and develop AI agents capable of adapting to diverse team strategies.
提供机构:
德克萨斯大学奥斯汀分校计算机科学系
创建时间:
2025-06-12
原始信息汇总

VGC-Bench数据集概述

数据集基本信息

数据集内容

  • 数据来源: Gen 9 VGC对战记录(全部启用开放队伍配置)
  • 数据获取地址: https://huggingface.co/datasets/cameronangliss/vgc-battle-logs

数据处理功能

  1. 对战日志采集 (scrape_data.py)
  2. 日志转状态-动作对 (logs2trajs.py)
  3. 监督学习预处理流程
  4. 强化学习微调流程(支持3种PSRO方法)

应用场景

  • 监督学习训练 (pretrain.py)
  • 强化学习训练 (train.py)
  • 在线对战测试 (play.py)
  • 智能体交叉评估与ELO评级 (eval.py)

技术依赖

  • Python 3.10
  • Pip 23
  • NodeJS/npm(用于Pokemon Showdown)
搜集汇总
数据集介绍
main_image_url
构建方式
VGC-Bench数据集的构建依托于Pokémon Video Game Championships (VGC)这一高度复杂的竞技环境,通过整合多智能体学习框架与人类对战数据采集系统。研究团队首先对Pokémon Showdown平台上的33万场OTS(Open Team Sheets)格式对战录像进行清洗与解析,利用改进后的poke-env库重构对战状态轨迹。为标准化评估流程,团队设计了包含11种基线的基准系统,涵盖从启发式规则、行为克隆到基于博弈论的强化学习方法(如虚拟博弈、双重预言算法等),并通过PettingZoo框架实现多智能体并行训练环境。数据采集过程中特别设置了1200分以上的天梯评级过滤机制,确保人类示范数据的质量。
特点
该数据集最显著的特征在于其组合爆炸式的策略空间,团队配置可能性高达10^139种,远超Dota或星际争霸等传统基准游戏。其核心挑战源于VGC对战的双重特性:离散化的队伍构建与连续化的对战执行,导致最优策略会随双方队伍组合发生剧烈变化。数据集提供精细化的观测空间编码,将每只宝可梦的个体特征(如属性、技能)、场地全局状态(如天气)以及对战历史信息(通过帧堆叠技术)融合为12×(g+s+p)维张量表示。此外,独特的队伍预览机制(从6选4)引入了90种子队伍选择组合,进一步增加了策略评估的复杂性。
使用方法
使用该数据集需遵循分阶段评估协议:首先在单队伍配置下训练智能体达到职业选手水平(基准测试显示BCFP方法可获得83%胜率),随后通过交叉对战矩阵评估多队伍泛化能力。评估体系包含三个维度:1)性能测试,限定在训练队伍集内进行100轮蒙特卡洛交叉验证;2)泛化测试,使用未见过的队伍配置计算胜率衰减曲线;3)可剥削性分析,通过最佳响应策略寻找当前策略漏洞。研究人员可利用内置的ELO评分系统(基于最小二乘法的改进算法)量化智能体水平,或接入Pokémon Showdown天梯进行实战验证。数据集提供的PettingZoo接口支持快速部署种群训练、镜像对战禁用等实验模式。
背景与挑战
背景概述
VGC-Bench是由德克萨斯大学奥斯汀分校的Cameron L. Angliss等研究人员于2025年提出的一个创新性基准测试,专注于评估AI在《宝可梦》视频游戏锦标赛(VGC)中的泛化能力。该数据集针对多智能体学习领域中的核心挑战——即智能体在面对高达10^139种可能的队伍配置时,如何实现跨策略泛化而无需重新训练。作为首个系统化研究VGC竞技场景的基准,VGC-Bench通过标准化评估协议、提供人类对战数据和多样化基线方法(从行为克隆到博弈论算法),填补了复杂策略空间下AI泛化能力研究的空白。其创新性地将宝可梦对战的高组合复杂度与部分可观测性、随机机制等特性相结合,为多智能体学习领域提供了前所未有的挑战维度。
当前挑战
VGC-Bench面临双重挑战:在领域问题层面,需解决竞技宝可梦特有的策略敏感性问题——由于队伍构建的离散组合特性,最优策略会因对战双方队伍配置发生剧变,导致传统算法在单队伍设定表现优异但扩展到多队伍时性能骤降(30支队伍时胜率下降40%)。在构建过程中,研究者需处理三大技术难点:1) 部分可观测性下信息集规模达10^59的决策复杂度;2) 同步动作机制带来的非平稳性及信用分配难题;3) 对战日志中状态重建的不确定性,需通过开放队伍表(OTS)机制进行近似补偿。实验表明,即使最佳基线方法在单队伍设定能击败职业选手,其跨队伍泛化时仍存在显著性能衰减,证实策略泛化仍是待突破的核心难题。
常用场景
经典使用场景
在人工智能多智能体学习领域,VGC-Bench数据集被广泛应用于评估AI代理在复杂策略环境中的泛化能力。该数据集通过模拟宝可梦视频游戏锦标赛(VGC)中的多样化团队配置,为研究者提供了一个高度离散且组合性极强的测试平台。经典使用场景包括训练AI代理在无需重新训练的情况下适应不同的团队策略,从而验证其在多智能体环境中的鲁棒性和适应性。
衍生相关工作
VGC-Bench数据集衍生了一系列经典研究工作,包括基于行为克隆(BC)的模仿学习、基于种群训练的强化学习(如PPO)以及博弈论方法(如自我博弈、虚拟博弈和双重预言)。这些方法在单团队配置下表现出色,但在多团队泛化中仍面临挑战。相关研究还改进了Poke-env库,增强了其对多智能体框架PettingZoo的支持,推动了宝可梦AI研究的进一步发展。
数据集最近研究
最新研究方向
近年来,VGC-Bench数据集在人工智能多智能体学习领域引起了广泛关注,特别是在策略泛化和复杂团队配置的挑战性问题上。该数据集通过提供标准化的评估协议、多样化的基线实现以及丰富的人类对战数据,为研究者提供了一个理想的实验平台。前沿研究主要集中在如何提升AI智能体在多样化团队策略中的泛化能力,尤其是在面对高达10^139种可能的团队配置时,如何保持稳定的性能表现。当前的研究热点包括基于强化学习的自我博弈、虚构博弈和双重预言算法,以及如何结合大型语言模型(LLM)进行策略优化。这些研究不仅推动了多智能体学习算法的发展,也为其他复杂策略游戏(如Dota和StarCraft)的AI研究提供了新的思路和方法。VGC-Bench的开放性和模块化设计,使其成为评估和比较不同算法性能的重要工具,进一步促进了该领域的学术交流和技术进步。
相关研究论文
  • 1
    A Benchmark for Generalizing Across Diverse Team Strategies in Competitive Pokémon德克萨斯大学奥斯汀分校计算机科学系 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作