Procgen benchmark

Name: Procgen benchmark
Creator: Manifold Research, Metarch.ai, Georgia Tech
Published: 2025-05-09 00:51:36
License: 暂无描述

arXiv2025-05-09 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.05540v1

下载链接

链接失效反馈

官方服务：

资源简介：

Procgen benchmark是一个包含16个子数据集的综合测试平台，旨在评估视觉语言动作模型在多样化、程序生成的任务上的泛化性能。数据集来源于Facebook的公开存储库，每个子数据集都由专家强化学习(RL)代理的离线轨迹组成。测试集由每个子数据集中随机抽取的10%的情节构成，保证了测试的均衡性和代表性。该数据集主要用于评估模型在程序生成环境中的零样本泛化能力，以及模型架构、训练数据和输出处理技术对模型泛化性能的影响。

Procgen benchmark is a comprehensive testbed consisting of 16 sub-datasets, designed to evaluate the generalization performance of vision-language-action models across diverse, procedurally generated tasks. The dataset is sourced from Facebook's public repository, with each sub-dataset composed of offline trajectories from expert reinforcement learning (RL) agents. The test set is formed by randomly sampling 10% of episodes from each sub-dataset, ensuring the balance and representativeness of the test set. This dataset is primarily used to evaluate models' zero-shot generalization capabilities in procedurally generated environments, as well as the impacts of model architectures, training data, and output processing techniques on model generalization performance.

提供机构：

Manifold Research, Metarch.ai, Georgia Tech

创建时间：

2025-05-09

原始信息汇总

数据集概述

基本信息

标题: Benchmarking Vision, Language, & Action Models in Procedurally Generated, Open Ended Action Environments
作者: Pranav Guruprasad, Yangyue Wang, Sudipta Chowdhury, Harshvardhan Sikka
提交日期: 2025年5月8日
arXiv标识符: arXiv:2505.05540v1
DOI: 10.48550/arXiv.2505.05540
领域: 计算机视觉与模式识别 (cs.CV); 机器学习 (cs.LG)

摘要

研究背景: 视觉-语言-动作（VLA）模型是迈向通用机器人系统的重要一步，但对其在分布外（OOD）环境中的零样本泛化能力的系统评估仍然有限。
研究内容: 引入MultiNet v0.2基准，用于评估和分析最先进的VLM和VLA模型（包括GPT-4o、GPT-4.1、OpenVLA、Pi0 Base和Pi0 FAST）在Procgen基准中的多样化程序任务上的泛化性能。
主要发现:
1. 所有评估模型在零样本泛化到OOD任务时表现出显著局限性，性能受动作表示和任务复杂性等因素影响。
2. VLA模型由于其鲁棒的架构设计，通常优于其他模型。
3. VLM变体在适当约束时表现出显著改进，凸显模型性能对精确提示工程的敏感性。

附加信息

页数: 16页
图表数量: 26幅
全文链接: PDF | HTML (experimental)

搜集汇总

数据集介绍

构建方式

Procgen benchmark数据集的构建基于程序化生成的2D游戏环境，旨在评估强化学习（RL）代理的视觉和运动技能。该数据集包含16个子数据集，每个子数据集具有不同的环境布局、任务目标、奖励结构和离散动作空间。数据来源于Facebook公开存储库中的专家RL代理离线轨迹，并转换为TensorFlow Datasets（TFDS）格式以确保数据处理的统一性和便捷性。测试集由每个子数据集中随机采样的10%的片段组成，确保评估的全面性和代表性。

特点

Procgen benchmark数据集的特点在于其程序化生成的多样性和复杂性，能够有效测试模型在零样本外分布（OOD）任务中的泛化能力。每个子数据集模拟不同的游戏场景，涉及方向移动和特定游戏交互动作，动作空间多为离散值。数据集中的图像分辨率为64x64像素，与训练模型时常用的高分辨率图像（如224x224）存在显著差异，增加了模型适应的挑战性。此外，数据集缺乏本体感知状态信息，这对依赖此类输入的模型（如Pi0系列）提出了额外的适配要求。

使用方法

使用Procgen benchmark数据集时，首先需将数据加载为TFDS格式，便于统一处理。模型评估应严格在测试集上进行，避免训练数据的污染。针对不同模型架构（如OpenVLA、GPT-4o、Pi0系列），需进行特定的输入适配：对于GPT-4x模型，需通过精心设计的提示工程明确任务描述和动作空间约束；对于OpenVLA和Pi0模型，需处理图像分辨率差异和缺失的多视角输入。评估指标包括Brier平均绝对误差、宏/微精确率、召回率及无效动作百分比等，以全面衡量模型在离散动作空间中的泛化性能和偏差。

背景与挑战

背景概述

Procgen benchmark是由Facebook的研究团队于2020年创建的一个重要的强化学习基准测试数据集，旨在通过程序化生成的环境来评估智能体的泛化能力。该数据集由16个子数据集组成，每个子数据集模拟了不同的Atari风格2D游戏环境，涵盖了多样化的任务、目标和离散动作空间。Procgen benchmark的核心研究问题在于解决智能体在程序化生成、开放环境中的零样本泛化能力，特别是在视觉理解、决策制定和动作生成方面的表现。该数据集对强化学习和视觉-语言-动作（VLA）模型的研究产生了深远影响，成为评估模型在多样化、不可预测环境中表现的重要工具。

当前挑战

Procgen benchmark面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，数据集旨在解决智能体在程序化生成环境中的零样本泛化问题，这要求模型能够适应与训练数据分布不同的新任务和环境，特别是在离散动作空间中的表现。这一挑战体现在模型在处理复杂、稀疏或需要及时执行的特殊动作时的困难。在构建过程方面，挑战包括处理不同子数据集间环境布局、任务目标和奖励结构的巨大差异，确保生成的环境既多样化又具有代表性；同时，还需要解决从专家强化学习智能体收集的离线轨迹到标准化数据格式的转换问题，以及处理低分辨率图像输入与高分辨率训练数据之间的不匹配问题。

常用场景

经典使用场景

Procgen benchmark数据集在强化学习和视觉-语言-动作（VLA）模型评估中具有经典应用场景。该数据集通过程序生成的多样化2D游戏环境，为研究者提供了一个标准化的测试平台，用于评估模型在视觉感知、语言理解和动作执行方面的综合能力。特别是在零样本（zero-shot）和分布外（OOD）泛化任务中，Procgen benchmark能够有效检验模型面对未知环境时的适应性和鲁棒性。

衍生相关工作

Procgen benchmark的发布催生了一系列相关研究工作。例如，MultiNet v0.2利用该数据集对GPT-4o、OpenVLA等先进模型进行了系统性评估，揭示了它们在OOD任务中的局限性。此外，许多研究基于Procgen benchmark提出了改进模型泛化能力的新方法，如动作空间优化、提示工程（prompt engineering）等。这些工作进一步丰富了VLA模型的研究生态，推动了该领域的快速发展。

数据集最近研究