five

Metamon

收藏
github2025-04-09 更新2025-04-11 收录
下载链接:
https://github.com/UT-Austin-RPL/metamon
下载链接
链接失效反馈
官方服务:
资源简介:
Metamon提供了一个大型的RL轨迹数据集,这些轨迹是从真实的人类战斗中重建的,用于在竞技宝可梦中进行强化学习研究。

Metamon presents a large-scale RL trajectory dataset reconstructed from real human competitive Pokémon battles, intended for reinforcement learning research in competitive Pokémon scenarios.
创建时间:
2025-04-06
原始信息汇总

Metamon 数据集概述

数据集简介

Metamon 是一个支持在竞技宝可梦(通过 Pokémon Showdown 进行)中进行强化学习(RL)研究的数据集,主要特点包括:

  • 从真实人类对战重建的RL轨迹数据集
  • 提供模仿学习(IL)和离线RL策略训练的起点
  • 标准化的评估套件(队伍和对手)

数据集内容

数据集版本

  1. metamon-parsed-replays

    • 数量:1.05M场对战
    • 特点:真实对战数据,包含文本和数值特征的观测字典,存在未揭示玩家选择的缺失动作(action = -1
    • 链接:https://huggingface.co/datasets/jakegrigsby/metamon-parsed-replays
  2. metamon-synthetic

    • 数量:5M场对战
    • 特点:解析后的对战数据+自对战数据,文本存储为基于解析对战中出现词汇的标记化整数,缺失动作已由IL模型填充
    • 链接:https://huggingface.co/datasets/jakegrigsby/metamon-synthetic

预训练模型

所有模型检查点可在 https://huggingface.co/jakegrigsby/metamon/tree/main 获取,包括:

  • SmallIL(2个变体):15M参数的模仿学习模型
  • SmallRL(5个变体):15M参数的actor-critic模型
  • MediumIL:50M参数的模仿学习模型
  • MediumRL(3个变体):50M参数的actor-critic模型
  • LargeIL:200M参数的模仿学习模型
  • LargeRL:200M参数的actor-critic模型
  • SyntheticRLV0-V2:不同训练配置的200M参数actor-critic模型

训练与评估

  • 模仿学习训练python -m metamon.il.train
  • 强化学习训练python -m metamon.rl.offline_from_config
  • 评估预训练模型python -m metamon.rl.eval_pretrained

基准测试

包含多种启发式对手和基于模型的基线,可通过以下命令进行比较: bash python -m metamon.compete --task_dist Gen1OU --player GymLeader --opponent RandomBaseline --tasks 10

相关资源

  • 论文:https://arxiv.org/abs/2504.04395
  • 项目网站:https://metamon.tech
搜集汇总
数据集介绍
main_image_url
构建方式
Metamon数据集通过重构来自真实人类对战的大量强化学习轨迹,为竞争性宝可梦研究提供了丰富资源。其构建过程基于Pokémon Showdown平台的历史对战回放,采用独特的视角转换技术,将旁观者视角转化为玩家视角,解决了动作信息缺失的问题。数据集覆盖前四代宝可梦对战,通过自动化采集系统持续更新,确保数据的时效性和完整性。
特点
该数据集最显著的特点在于其规模庞大且质量精良,包含超过百万条真实对战轨迹和五百万条合成数据。数据格式设计科学,既保留原始文本特征又提供数值化处理版本,支持多种研究需求。特别值得注意的是,数据集针对早期世代宝可梦对战的长时程特性进行了优化,填补了该领域研究数据的空白。
使用方法
研究人员可通过Hugging Face平台直接获取数据集的两个版本:原始解析回放和合成数据。使用前需配置本地Pokémon Showdown服务器环境,通过专用Python接口进行数据交互。数据集支持多种应用场景,包括模仿学习、离线强化学习策略训练,以及标准化的对战评估。配套提供的预训练模型和基线系统,可快速搭建实验环境进行对比研究。
背景与挑战
背景概述
Metamon数据集由德克萨斯大学奥斯汀分校机器人感知与学习实验室(UT-Austin-RPL)于2025年推出,旨在为强化学习研究提供基于《精灵宝可梦》竞技对战的实验平台。该数据集聚焦于前四世代宝可梦对战,通过重构Pokémon Showdown平台上的人类对战轨迹,为模仿学习与离线强化学习算法提供了高质量训练样本。其核心研究价值在于探索复杂策略空间中的序列决策问题,特别是在部分可观测环境下(对手信息不完整)的多步推理能力。作为首个大规模宝可梦对战RL数据集,Metamon通过标准化评估套件推动了智能体在开放域策略游戏中的研究进程。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,宝可梦对战具有高达10^160种可能状态的动作空间,且对战过程中存在信息遮蔽效应,要求智能体具备长期策略规划与不完全信息推理能力。在构建过程中,需解决原始观战视角数据向玩家视角的转换难题,包括动作缺失补全(约17%动作需通过模仿学习模型推断)以及多模态特征(文本、数值、状态变更)的时序对齐。此外,前四世代对战机制的特殊性导致现有RL框架需进行针对性适配,例如回合制并行动作解析与属性相克规则的数学建模。
常用场景
经典使用场景
在强化学习研究领域,Metamon数据集为研究者提供了一个独特的实验平台,专注于模拟《宝可梦》竞技对战环境。通过从真实人类对战记录中重构的轨迹数据,该数据集支持模仿学习和离线强化学习策略的训练。其标准化的对战队伍和对手评估套件,使得研究者能够在可控环境中测试和验证算法的性能,特别是在前四代宝可梦对战中,这些对战因其较长的持续时间和有限的对手信息而更具挑战性。
衍生相关工作
Metamon数据集衍生了多项经典研究工作,其中包括基于Transformer架构的离线强化学习算法。这些研究通过利用数据集中的大规模对战轨迹,成功训练出了高性能的对战智能体。此外,数据集还催生了多种模仿学习和强化学习的混合方法,这些方法在宝可梦对战以外的复杂策略游戏中也有广泛应用。
数据集最近研究
最新研究方向
在强化学习领域,Metamon数据集为研究者在竞技宝可梦游戏中开展前沿探索提供了重要支持。该数据集通过重构人类对战轨迹,为模仿学习和离线强化学习策略的训练奠定了坚实基础。当前研究聚焦于前四代宝可梦,这些世代的对战时长较长且对手信息较少,为算法设计带来了独特挑战。最新成果《通过可扩展离线强化学习与Transformer实现人类水平竞技宝可梦》展示了该数据集在训练大规模Transformer模型方面的潜力,特别是结合自博弈数据后,模型性能得到显著提升。这一研究方向不仅推动了游戏AI的发展,也为复杂决策系统中的强化学习应用提供了新思路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作