Metamon

github2025-04-09 更新2025-04-11 收录

下载链接：

https://github.com/UT-Austin-RPL/metamon

下载链接

链接失效反馈

官方服务：

资源简介：

Metamon提供了一个大型的RL轨迹数据集，这些轨迹是从真实的人类战斗中重建的，用于在竞技宝可梦中进行强化学习研究。

Metamon presents a large-scale RL trajectory dataset reconstructed from real human competitive Pokémon battles, intended for reinforcement learning research in competitive Pokémon scenarios.

创建时间：

2025-04-06

原始信息汇总

Metamon 数据集概述

数据集简介

Metamon 是一个支持在竞技宝可梦（通过 Pokémon Showdown 进行）中进行强化学习（RL）研究的数据集，主要特点包括：

从真实人类对战重建的RL轨迹数据集
提供模仿学习（IL）和离线RL策略训练的起点
标准化的评估套件（队伍和对手）

数据集内容

数据集版本

metamon-parsed-replays
- 数量：1.05M场对战
- 特点：真实对战数据，包含文本和数值特征的观测字典，存在未揭示玩家选择的缺失动作（action = -1）
- 链接：https://huggingface.co/datasets/jakegrigsby/metamon-parsed-replays
metamon-synthetic
- 数量：5M场对战
- 特点：解析后的对战数据+自对战数据，文本存储为基于解析对战中出现词汇的标记化整数，缺失动作已由IL模型填充
- 链接：https://huggingface.co/datasets/jakegrigsby/metamon-synthetic

预训练模型

所有模型检查点可在 https://huggingface.co/jakegrigsby/metamon/tree/main 获取，包括：

SmallIL（2个变体）：15M参数的模仿学习模型
SmallRL（5个变体）：15M参数的actor-critic模型
MediumIL：50M参数的模仿学习模型
MediumRL（3个变体）：50M参数的actor-critic模型
LargeIL：200M参数的模仿学习模型
LargeRL：200M参数的actor-critic模型
SyntheticRLV0-V2：不同训练配置的200M参数actor-critic模型

训练与评估

模仿学习训练：python -m metamon.il.train
强化学习训练：python -m metamon.rl.offline_from_config
评估预训练模型：python -m metamon.rl.eval_pretrained

基准测试

包含多种启发式对手和基于模型的基线，可通过以下命令进行比较： bash python -m metamon.compete --task_dist Gen1OU --player GymLeader --opponent RandomBaseline --tasks 10

相关资源

论文：https://arxiv.org/abs/2504.04395
项目网站：https://metamon.tech

搜集汇总

数据集介绍

构建方式

Metamon数据集通过重构来自真实人类对战的大量强化学习轨迹，为竞争性宝可梦研究提供了丰富资源。其构建过程基于Pokémon Showdown平台的历史对战回放，采用独特的视角转换技术，将旁观者视角转化为玩家视角，解决了动作信息缺失的问题。数据集覆盖前四代宝可梦对战，通过自动化采集系统持续更新，确保数据的时效性和完整性。

特点

该数据集最显著的特点在于其规模庞大且质量精良，包含超过百万条真实对战轨迹和五百万条合成数据。数据格式设计科学，既保留原始文本特征又提供数值化处理版本，支持多种研究需求。特别值得注意的是，数据集针对早期世代宝可梦对战的长时程特性进行了优化，填补了该领域研究数据的空白。

使用方法

研究人员可通过Hugging Face平台直接获取数据集的两个版本：原始解析回放和合成数据。使用前需配置本地Pokémon Showdown服务器环境，通过专用Python接口进行数据交互。数据集支持多种应用场景，包括模仿学习、离线强化学习策略训练，以及标准化的对战评估。配套提供的预训练模型和基线系统，可快速搭建实验环境进行对比研究。

背景与挑战

背景概述

Metamon数据集由德克萨斯大学奥斯汀分校机器人感知与学习实验室（UT-Austin-RPL）于2025年推出，旨在为强化学习研究提供基于《精灵宝可梦》竞技对战的实验平台。该数据集聚焦于前四世代宝可梦对战，通过重构Pokémon Showdown平台上的人类对战轨迹，为模仿学习与离线强化学习算法提供了高质量训练样本。其核心研究价值在于探索复杂策略空间中的序列决策问题，特别是在部分可观测环境下（对手信息不完整）的多步推理能力。作为首个大规模宝可梦对战RL数据集，Metamon通过标准化评估套件推动了智能体在开放域策略游戏中的研究进程。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，宝可梦对战具有高达10^160种可能状态的动作空间，且对战过程中存在信息遮蔽效应，要求智能体具备长期策略规划与不完全信息推理能力。在构建过程中，需解决原始观战视角数据向玩家视角的转换难题，包括动作缺失补全（约17%动作需通过模仿学习模型推断）以及多模态特征（文本、数值、状态变更）的时序对齐。此外，前四世代对战机制的特殊性导致现有RL框架需进行针对性适配，例如回合制并行动作解析与属性相克规则的数学建模。

常用场景

经典使用场景

在强化学习研究领域，Metamon数据集为研究者提供了一个独特的实验平台，专注于模拟《宝可梦》竞技对战环境。通过从真实人类对战记录中重构的轨迹数据，该数据集支持模仿学习和离线强化学习策略的训练。其标准化的对战队伍和对手评估套件，使得研究者能够在可控环境中测试和验证算法的性能，特别是在前四代宝可梦对战中，这些对战因其较长的持续时间和有限的对手信息而更具挑战性。

衍生相关工作

Metamon数据集衍生了多项经典研究工作，其中包括基于Transformer架构的离线强化学习算法。这些研究通过利用数据集中的大规模对战轨迹，成功训练出了高性能的对战智能体。此外，数据集还催生了多种模仿学习和强化学习的混合方法，这些方法在宝可梦对战以外的复杂策略游戏中也有广泛应用。

数据集最近研究