PokéAgent Challenge Dataset
收藏arXiv2026-03-17 更新2026-03-18 收录
下载链接:
https://pokeagentchallenge.com
下载链接
链接失效反馈官方服务:
资源简介:
PokéAgent Challenge是由普林斯顿大学等机构构建的大规模决策研究基准,包含对战轨迹和角色扮演游戏(RPG)环境两大核心数据集。对战数据集包含400万人类演示和1800万合成对战轨迹,以及20万+精选对战队伍;RPG数据集则提供首个标准化速度通关评估框架。该数据集通过Pokémon复杂的环境设计,解决了现有基准在部分可观测性、对抗性推理和长程规划等维度上的不足。其应用领域包括强化学习、大语言模型在多智能体决策和长序列任务中的能力评估,为AI系统在复杂动态环境中的表现提供了全新测试平台。
The PokéAgent Challenge is a large-scale decision-making research benchmark developed by Princeton University and other institutions, comprising two core datasets: battle trajectory datasets and role-playing game (RPG) environment datasets. The battle trajectory dataset contains 4 million human demonstrations, 18 million synthetic battle trajectories, and over 200,000 curated battle teams. The RPG dataset offers the first standardized speedrun evaluation framework. Leveraging the sophisticated environment design of Pokémon, this benchmark addresses the shortcomings of existing benchmarks in aspects such as partially observable environments, adversarial reasoning, and long-horizon planning. Its application domains include reinforcement learning, capability evaluation of large language models (LLMs) in multi-agent decision-making and long-sequence tasks, providing a novel testbed for assessing AI systems' performance in complex dynamic environments.
提供机构:
普林斯顿大学; 德克萨斯大学奥斯汀分校; 卡内基梅隆大学; 纽约大学; 谷歌DeepMind
创建时间:
2026-03-17
搜集汇总
数据集介绍

构建方式
PokéAgent Challenge Dataset的构建过程体现了大规模多模态数据采集与系统性工程化的深度融合。该数据集依托宝可梦对战模拟器Pokémon Showdown的公开对战记录,通过隐私保护机制对超过400万场人类对战轨迹进行匿名化处理,并重构了每位玩家的私有信息视角,形成可供强化学习训练的状态-动作轨迹。在此基础上,研究团队通过自博弈机制生成了1800万场合成对战,并结合社区专家验证的20万支竞技队伍,构建了覆盖不同世代规则(如Gen 1 OU与Gen 9 OU)的对抗性环境。对于角色扮演游戏速度竞速赛道,数据集整合了《宝可梦 绿宝石》的标准仿真环境与里程碑评估框架,通过多智能体编排系统实现了视觉感知、长期规划与战略决策的模块化数据流。
特点
该数据集的核心特征在于其双轨道评估框架的互补性与生态复杂性。对战赛道通过部分可观测的零和博弈环境,将游戏理论推理与隐藏信息决策相结合,其状态空间复杂度高达10^564量级,远超传统棋盘游戏。速度竞速赛道则专注于长视距规划任务,要求智能体在数千个决策步骤中协调视觉感知、资源管理与战斗策略,形成对自主智能体连贯性的极端测试。数据集的独特优势体现在其动态元游戏的演化特性上:竞技对战的战术环境随玩家社区策略迭代持续变化,天然形成分布偏移挑战,有效避免了模型对静态数据的过拟合。此外,数据集与BenchPress评估矩阵的正交性分析表明,其衡量的战略推理能力未被现有基准测试所捕获,为评估前沿AI系统提供了新的维度。
使用方法
研究社区可通过标准化接口系统化地使用该数据集。对于对战赛道,开发者可通过专用Showdown服务器接入实时天梯系统,使用全历史布拉德利-特里评分模型评估智能体对抗基线系统与社区提交方案的性能。数据集支持启发式、强化学习与大语言模型三类基线的对比实验,并提供扩展计时器设置以分离推理能力与推断速度的评估。速度竞速赛道则提供本地化评估框架,研究者可在标准化模拟器中运行智能体,通过里程碑完成度与实时通关节奏进行可复现比较。数据集配套的多智能体编排系统支持模块化工具集成(如A*路径规划、知识检索与战斗子智能体),使研究者能聚焦于核心算法创新而非工程实现。所有资源通过GitHub与HuggingFace平台持续维护,形成可扩展的活体基准测试生态系统。
背景与挑战
背景概述
PokéAgent Challenge Dataset 是由普林斯顿大学、德克萨斯大学奥斯汀分校等机构的研究团队于2025年推出的一个大规模决策研究基准,旨在通过宝可梦多智能体对战系统和角色扮演游戏环境,系统性地评估人工智能在部分可观测性、博弈论推理和长时程规划等核心挑战上的表现。该数据集包含超过2000万条对战轨迹和20万支精选队伍,为强化学习与大型语言模型的研究提供了标准化评估框架,并在NeurIPS 2025竞赛中吸引了超过100支团队参与,显著推动了游戏AI与序列决策领域的发展。
当前挑战
该数据集主要应对两大挑战:在领域问题层面,宝可梦对战要求智能体在部分可观测条件下进行战略推理与泛化,而角色扮演游戏速度通关则需长时程规划与序列决策,两者共同构成了对现有AI系统的严峻考验;在构建过程中,研究团队面临数据标准化与评估一致性的难题,此前不同模型在异构游戏版本、评估工具和度量标准下的表现无法直接比较,因此必须开发统一的对抗对战环境与速度通关评估框架,并设计兼顾人类演示数据与合成数据的混合数据集,以支撑公平、可复现的跨范式模型对比。
常用场景
经典使用场景
在人工智能决策研究领域,PokéAgent Challenge Dataset 为评估智能体在复杂、动态环境中的综合能力提供了标准化基准。该数据集通过其双轨设计——对战赛道与速通赛道,系统性地考察智能体在部分可观测条件下的博弈论推理与长程规划能力。对战赛道依托宝可梦对战模拟器 Pokémon Showdown,要求智能体在隐藏信息与策略对抗中做出实时决策;速通赛道则基于《宝可梦 绿宝石》游戏,挑战智能体在数千步连续决策中完成探索、资源管理与战斗任务。这一设计使得数据集能够同时覆盖短时对抗与长时规划两大核心场景,为多智能体强化学习、语言模型推理与混合方法研究提供了统一的实验平台。
实际应用
该数据集的实际应用价值体现在多个层面。在游戏人工智能领域,它为构建具有人类竞技水平的对战智能体与高效速通智能体提供了训练数据与评估标准,直接推动了竞技游戏AI的研发。在通用人工智能研究中,数据集所强调的部分可观测推理、长时程规划与对抗性适应能力,对开发适用于现实世界不确定环境的自主系统具有重要借鉴意义。例如,智能体在速通赛道中所需的视觉感知、空间导航与资源管理能力,可迁移至机器人操作、自动驾驶等具身智能任务。此外,数据集附带的多智能体编排系统与开源工具链,为学术界与工业界提供了可复现的实验基础设施,降低了相关研究的入门门槛,促进了跨机构协作与技术进步。
衍生相关工作
围绕 PokéAgent Challenge Dataset 已衍生出一系列经典研究工作,这些工作主要沿两个方向展开。在对战赛道,基于该数据集训练的强化学习智能体(如 Metamon 系列)与结合蒙特卡洛树搜索的语言模型智能体(如 PokéChamp)展现了超越基础方法的性能,其中获胜方案如 PA-Agent 的迭代离线强化学习与 FoulPlay 的根并行化MCTS搜索,进一步推动了博弈决策算法的发展。在速通赛道,参赛团队提出的脚本策略蒸馏、基于里程碑条件的循环PPO等方法,为长时程任务分解与高效策略学习提供了新范式。这些工作不仅验证了数据集的挑战性,也催生了针对部分可观测、长时程决策问题的通用算法创新,相关架构与工具设计已影响至自动编码智能体等其他自主系统领域。
以上内容由遇见数据集搜集并总结生成



