VLA_Arena_L1_L_rlds

Hugging Face2025-12-27 更新2025-12-28 收录

下载链接：

https://huggingface.co/datasets/VLA-Arena/VLA_Arena_L1_L_rlds

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是VLA-Arena基准测试的Level 1 (L1) - Large (L)变体，包含适用于标准训练场景的平衡人类演示集。数据集涵盖55个不同任务，每个任务有50条轨迹，总共2750条轨迹，覆盖了安全、干扰、外推和长视野等关键领域。数据格式遵循RLDS标准，包括高分辨率RGB图像（256x256）、机器人状态向量、7自由度连续控制信号（末端执行器姿态+夹持器）和自然语言任务指令。数据集经过高分辨率再生、相机选择和旋转、成功过滤以及动作过滤等严格的质量控制步骤。

创建时间：

2025-12-25

原始信息汇总

VLA-Arena Dataset (L1 - Large Variant) 概述

数据集基本信息

名称: VLA-Arena Dataset (L1 - Large Variant)
许可证: Apache-2.0
任务类别: 机器人技术、视频分类、图像到文本
标签: vla-arena, robotics, multimodal, imitation-learning, vision-language-action, lerobot, openpi
数据规模: 100K < n < 1M

数据集描述

此数据集是VLA-Arena基准测试数据的**第1级（L1）- 大型（L）**变体。它包含一组适用于标准训练场景的平衡的人类演示数据。

覆盖任务: 55个不同的第1难度级别任务。
总轨迹数: 2,750条（每个任务50条轨迹）。
任务套件: 涵盖安全、干扰、外推和长视野领域。

数据格式与兼容性

该数据集严格按照RLDS格式进行格式化。数据结构包括以下标准化特征：

观察: 高分辨率RGB图像（256x256）和机器人状态向量。
动作: 7自由度连续控制信号（末端执行器姿态 + 夹持器）。
语言: 自然语言任务指令。

数据集构建与预处理

为确保高质量数据和公平比较，数据集经过以下严格的构建和质量控制步骤：

高分辨率重新生成: 演示以256 x 256的更高分辨率重新渲染。
相机选择与旋转:
- 视角: 仅使用静态第三人称相机图像。
- 旋转: 所有第三人称相机图像旋转180度，以校正模拟环境中观察到的视觉倒置。
成功过滤: 所有演示在模拟环境中重放，重放期间未达到任务成功标准的轨迹被过滤掉。
动作过滤（迭代优化）: 采用迭代优化策略，在关键状态转换点（例如夹持器闭合和打开）周围尝试保留特定数量的无操作动作，并仅保留在验证重放中仍成功的轨迹。

评估与用途

该数据集设计用于VLA-Arena基准测试生态系统内，用于训练模型，随后在涵盖L0（基础）到L2（高级）难度级别的11个专业套件中进行测试。

相关资源

项目主页: https://vla-arena.github.io
GitHub仓库: https://github.com/PKU-Alignment/VLA-Arena
文档: https://github.com/PKU-Alignment/VLA-Arena/tree/main/docs

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集是推动视觉-语言-动作模型发展的基石。VLA_Arena_L1_L_rlds数据集的构建过程体现了严谨的工程化流程，其核心在于通过高保真仿真环境再生与迭代优化确保数据质量。原始的动作轨迹在模拟器中重新执行，以生成256x256的高分辨率RGB观测图像，超越了简单上采样的视觉保真度。构建过程中，仅采用经过180度旋转校正的静态第三人称视角图像，并严格过滤了在回放中未达到任务成功标准的轨迹。尤为关键的是，针对无操作动作的过滤采用了迭代优化策略，通过保留关键状态转换点周围特定数量的无操作动作，在数据清洗与轨迹成功率之间取得了精妙平衡，最终形成了包含55项任务、总计2750条轨迹的均衡集合。

特点

作为VLA-Arena基准测试中难度等级L1的大型变体，本数据集在设计上凸显了系统性评估与实用性兼顾的特点。它全面覆盖了安全性、干扰物处理、外推能力与长时程规划这四大关键机器人评估维度，为模型在复杂现实场景中的稳健性提供了多维度的检验标准。数据集严格遵循RLDS格式进行组织，提供了标准化的观测、动作与语言指令特征，确保了与主流训练框架的兼容性。其任务设计具有层次化的难度递进关系，位于L0基础操作与L2高级约束场景之间，旨在评估模型处理中等复杂度、包含一定环境不确定性的任务能力，为研究社区提供了一个规模适中且质量可控的基准训练资源。

使用方法

该数据集旨在集成于VLA-Arena基准测试的完整生态系统中使用，为训练可系统评估的视觉-语言-动作模型提供支持。使用者可依据RLDS格式加载数据，利用其包含的高分辨率图像观测、七自由度连续控制信号以及自然语言任务指令，进行模仿学习或相关算法的模型训练。训练后的模型可进一步在VLA-Arena平台提供的涵盖11个专项测试套件、三个难度等级（L0至L2）的完整评估体系中进行系统性测试，以全面衡量其在安全性、泛化性与长程任务规划等方面的性能。具体的数据加载脚本、评估指标与详细流程需参考项目官方文档与代码库，以确保评估的规范性与结果的可比性。

背景与挑战

背景概述

VLA-Arena数据集由PKU-Alignment团队于2025年构建，旨在为视觉-语言-动作模型提供一个系统化的开源评估基准。该数据集围绕机器人学与多模态学习领域，核心研究问题在于如何全面、客观地衡量智能体在复杂物理环境中的感知、决策与执行能力。通过涵盖安全、干扰、外推和长视野等关键维度，并设计了超过150项任务与分层难度体系，VLA-Arena推动了具身智能体在泛化性、安全性与效率方面的标准化测评，对机器人模仿学习与强化学习的研究进展产生了显著影响。

当前挑战

该数据集致力于解决机器人领域中将视觉与语言指令映射为连续动作序列的复杂挑战，尤其在处理环境不确定性、长时程任务规划以及跨场景泛化等方面存在显著难度。在构建过程中，研究团队面临了数据质量保障的多重挑战，包括需通过高分辨率重渲染以提升视觉保真度，精心筛选视角并校正图像旋转以统一观测基准，以及设计迭代优化策略来平衡动作序列中的无效操作过滤与轨迹回放成功率，确保演示数据的可靠性与一致性。

常用场景

经典使用场景

在机器人学习领域，VLA_Arena_L1_L_rlds数据集为视觉-语言-动作模型的标准化训练与评估提供了核心支持。该数据集包含55个难度等级为L1的任务，每个任务提供50条高质量的人类演示轨迹，总计2750条轨迹，覆盖安全、干扰、外推和长时域等关键评估维度。研究者通常利用这些结构化的多模态数据，训练模型从视觉观察和自然语言指令中生成精确的机器人控制动作，从而系统性地提升模型在复杂环境中的泛化与执行能力。

解决学术问题

该数据集致力于解决机器人模仿学习中长期存在的泛化性不足与安全性评估缺失等核心学术问题。通过提供涵盖多样化任务场景的标准化演示，它使研究者能够量化模型在面对动态障碍、视觉干扰、未见对象及多步骤长时程任务时的性能。其层级化的难度设计（L0-L2）与严格的成功过滤机制，为客观比较不同VLA模型的鲁棒性、安全边界与知识迁移能力建立了可靠基准，推动了领域从单一任务性能向综合智能体评估的范式转变。

衍生相关工作

围绕该数据集及其所属的VLA-Arena基准，已衍生出一系列推动领域发展的经典研究工作。这些工作主要集中于开发新型的VLA模型架构、设计更高效的模仿学习与强化学习算法，以及探索跨任务与跨场景的知识迁移机制。基准的引入促使研究者们系统性地报告模型在安全、长时域等维度的性能，催生了针对模型可靠性、可解释性及数据效率的深入探讨，从而共同塑造了当前机器人多模态学习的研究议程与评估标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集