VLA_Arena_L0_L_lerobot_openpi

Hugging Face2025-12-27 更新2025-12-28 收录

下载链接：

https://huggingface.co/datasets/VLA-Arena/VLA_Arena_L0_L_lerobot_openpi

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是VLA-Arena基准测试的Level 0 (L0) - Large (L)变体，包含适用于标准训练场景的平衡人类示范集。覆盖60个不同的任务，每个任务50条轨迹，总计3000条轨迹，任务套件涵盖安全、干扰、外推和长视界领域。数据格式严格遵循Lerobot数据集标准，专为训练Openpi模型设计。数据结构包括高分辨率RGB图像（256x256）和机器人状态向量的观察，7-DoF连续控制信号（末端执行器姿态+夹持器）的动作，以及自然语言任务指令的语言。数据集经过高分辨率重新渲染、相机选择和旋转、成功过滤和动作过滤的迭代优化等严格预处理步骤，确保数据质量和公平比较。

创建时间：

2025-12-26

原始信息汇总

VLA-Arena数据集 (L0 - 大型变体) 概述

数据集基本信息

许可证: Apache-2.0
任务类别: 机器人学、视频分类、图像到文本
标签: vla-arena、机器人学、多模态、模仿学习、视觉-语言-动作、lerobot、openpi
规模类别: 10K<n<100K

数据集描述

此数据集是VLA-Arena基准测试数据的**第0级（L0）- 大型（L）**变体。它包含一组适用于标准训练场景的平衡的人类演示数据。

核心构成

覆盖任务: 难度等级0下的60个不同任务。
总轨迹数: 3,000条（每个任务50条轨迹）。
任务套件: 涵盖安全、干扰、外推和长视野领域。

格式与兼容性

该数据集严格按照Lerobot数据集的格式进行格式化，专门用于训练Openpi模型。数据结构包含以下标准化特征：

观察: 高分辨率RGB图像（256x256）和机器人状态向量。
动作: 7自由度连续控制信号（末端执行器姿态 + 夹持器）。
语言: 自然语言任务指令。

数据集构建与预处理

为确保高质量数据和公平比较，数据集经过了严格的构建和质量控制步骤：

1. 高分辨率重新生成

演示数据以更高的256 x 256分辨率重新渲染。对原始的128 x 128基准图像进行简单放大会导致视觉保真度差。我们在模拟器中重新执行了记录的动作轨迹，以捕获适合现代VLA骨干网络的优质视觉观察结果。

2. 相机选择与旋转

视角: 仅使用静态第三人称相机图像。为确保基线之间的公平比较，丢弃了腕部相机图像。
旋转: 所有第三人称相机图像在训练和测试时均旋转180度，以校正模拟环境中观察到的视觉反转。

3. 成功过滤

所有演示都在模拟环境中回放。任何在回放期间未能满足任务成功标准的轨迹都被过滤掉。

4. 动作过滤（迭代优化）

标准数据清理通常涉及过滤掉所有无操作（no-op）动作。然而，我们发现完全移除无操作动作会显著降低在VLA-Arena设置中回放时的轨迹成功率。为解决此问题，我们采用了迭代优化策略：

我们尝试顺序保留N个无操作动作（N = 4, 8, 12, 16），特别是在关键状态转换点（例如夹持器闭合和打开）周围，而不是移除所有无操作动作。
只有在验证回放中仍然成功的轨迹才被保留。

评估与用途

该数据集设计用于VLA-Arena基准测试生态系统内。它可用于训练模型，随后在涵盖从L0（基础）到L2（高级）难度级别的11个专业套件中进行测试。

相关资源

项目主页: https://vla-arena.github.io
GitHub仓库: https://github.com/PKU-Alignment/VLA-Arena
文档: https://github.com/PKU-Alignment/VLA-Arena/tree/main/docs

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集是评估视觉-语言-动作模型性能的基石。VLA_Arena_L0_L_lerobot_openpi数据集的构建过程体现了严谨的科学方法。该数据集通过高分辨率重新渲染，将原始128x128图像升级至256x256，并非简单插值，而是在模拟器中重新执行记录的动作轨迹以获取更清晰的视觉观察。构建过程中严格筛选视角，仅采用静态第三人称摄像头图像，并进行了180度旋转校正，以消除模拟环境中的视觉倒置。此外，通过回放验证，所有轨迹均经过成功性过滤，并采用迭代优化策略保留关键状态转换点周围的无操作动作，确保了数据的高保真度与可复现性。

特点

作为VLA-Arena基准测试的L0大型变体，该数据集在机器人多模态学习领域展现出鲜明的特点。它涵盖了安全、干扰、外推和长视野四个核心评估维度，包含60项基础任务，每条任务提供50条轨迹，共计3000条人类示范轨迹，形成了均衡的训练样本集。数据格式严格遵循Lerobot标准，兼容Openpi模型训练，集成了高分辨率RGB图像、机器人状态向量、七自由度连续控制信号及自然语言任务指令，为模型提供了统一且结构化的多模态输入。其层次化的难度设计为系统评估模型的泛化能力与鲁棒性奠定了坚实基础。

使用方法

该数据集专为集成于VLA-Arena基准测试生态系统而设计，旨在支持视觉-语言-动作模型的训练与评估。使用者可依托其标准化的数据格式，直接训练兼容Lerobot框架的模型，特别是Openpi系列。训练后的模型可在VLA-Arena提供的11个专项测试套件中进行系统评估，难度涵盖从L0基础任务到L2复杂场景。具体评估流程、性能指标及相关脚本需参考官方项目文档，从而确保评估过程的规范性与结果的可比性，助力机器人智能体在真实世界中的有效部署。

背景与挑战

背景概述

VLA-Arena数据集由PKU-Alignment团队于2025年构建，旨在为视觉-语言-动作模型提供一个系统化的开源评测基准。该数据集聚焦于机器人学与多模态学习领域，核心研究问题在于如何全面评估智能体在复杂物理环境中的感知、决策与执行能力。通过涵盖安全、干扰、外推及长时程规划等关键维度，并设计了包含150余项任务的11个专项测试套件，VLA-Arena为促进具身智能的发展提供了统一的工具链与层次化的难度标度，对推动机器人模仿学习与通用智能体的研究具有重要影响力。

当前挑战

该数据集致力于解决机器人视觉-语言-动作建模中的核心挑战，即在动态、开放的真实世界中实现安全、鲁棒且可泛化的连续控制。具体挑战包括：在存在视觉干扰与动态障碍的环境中维持操作稳定性；将学习到的技能推广至未见过的物体与任务流程；以及组合长序列动作以完成复杂的多步骤目标。在构建过程中，研究团队面临了数据质量保障的难题，例如需通过高分辨率重新渲染以提升视觉保真度，并采用迭代优化策略精细处理动作序列中的无效操作，以确保演示轨迹在仿真回放中的成功率，从而保障了基准评测的公平性与可靠性。

常用场景

经典使用场景

在机器人学习领域，VLA-Arena L0-L数据集为视觉-语言-动作模型的训练与评估提供了标准化基准。其经典使用场景集中于模仿学习，通过包含安全、干扰、外推和长视野四大领域的60项任务，共计3000条高质量人类演示轨迹，系统性地支持模型从基础物体操控到复杂动作序列的学习。该数据集严格遵循Lerobot格式，兼容Openpi模型训练，旨在为多模态机器人智能体构建稳健的行为策略奠定数据基础。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作，主要集中在多模态模型架构优化与基准测试方法创新上。例如，基于CBDDL语言的任务定制化扩展、针对动作序列中关键状态转换的迭代优化策略，以及结合安全约束的强化学习框架。这些工作不仅深化了对视觉-语言-动作交互机制的理解，也为后续更复杂的L1与L2难度场景的模型开发奠定了方法论基础。

数据集最近研究