VLA_Arena_L0_M_hdf5

Hugging Face2025-12-27 更新2025-12-28 收录

下载链接：

https://huggingface.co/datasets/VLA-Arena/VLA_Arena_L0_M_hdf5

下载链接

链接失效反馈

官方服务：

资源简介：

VLA-Arena数据集（L0 - 中等变体）是VLA-Arena基准测试的一部分，专门用于评估视觉-语言-动作（VLA）模型。该数据集包含60个不同任务，总计1,800条轨迹（每条任务30条轨迹），覆盖安全性、干扰、外推和长视野等关键领域。数据格式为hdf5，包括高分辨率RGB图像（256x256）、机器人状态向量、7-DoF连续控制信号（末端执行器姿势+夹持器）和自然语言任务指令。数据集经过严格的高分辨率再生、相机选择和旋转、成功过滤和动作过滤等预处理步骤，确保数据质量和公平比较。

创建时间：

2025-12-25

原始信息汇总

VLA-Arena数据集（L0 - Medium变体）概述

数据集基本信息

许可证：Apache-2.0
任务类别：机器人技术、视频分类、图像到文本
标签：vla-arena、机器人技术、多模态、模仿学习、视觉-语言-动作、lerobot、openpi
规模类别：100K < n < 1M

数据集描述

此数据集是VLA-Arena基准测试数据的**第0级（L0）- 中等（M）**变体。它包含一组适用于标准训练场景的平衡人类演示。

涵盖任务：难度级别0（L0）下的60个不同任务。
总轨迹数：1,800条（每个任务30条轨迹）。
任务套件：涵盖安全、干扰、外推和长视野领域。

数据格式与内容

该数据集严格按照hdf5格式进行格式化。

数据结构包含以下标准化特征：

观察：高分辨率RGB图像（256x256）和机器人状态向量。
动作：7自由度连续控制信号（末端执行器姿态 + 夹持器）。
语言：自然语言任务指令。

数据集构建与预处理

为确保高质量数据和公平比较，数据集经过了多项严格的构建和质量控制步骤：

高分辨率重新生成：演示以256 x 256的更高分辨率重新渲染。对原始128 x 128基准图像进行简单上采样会导致视觉保真度差。我们在模拟器中重新执行记录的动作轨迹，以捕获适合现代VLA骨干网络的优质视觉观察。
相机选择与旋转：
- 视点：仅使用静态第三人称相机图像。丢弃手腕相机图像以确保基线之间的公平比较。
- 旋转：所有第三人称相机图像在训练和测试时均旋转180度，以校正模拟环境中观察到的视觉反转。
成功过滤：所有演示都在模拟环境中回放。任何在回放期间未能满足任务成功标准的轨迹都被过滤掉。
动作过滤（迭代优化）：
- 标准数据清理通常涉及过滤掉所有无操作动作。然而，我们发现完全移除无操作动作会显著降低在VLA-Arena设置中回放时的轨迹成功率。
- 为解决此问题，我们采用了迭代优化策略：我们尝试顺序保留N个无操作动作（N = 4, 8, 12, 16），特别是在关键状态转换点（例如夹持器闭合和打开）周围。仅保留在验证回放期间仍保持成功的轨迹。

评估与用途

该数据集设计用于VLA-Arena基准测试生态系统内。它允许训练随后在11个专门套件中进行测试的模型，难度级别从L0（基础）到L2（高级）。

引用

如果您在研究中使用了此数据集或VLA-Arena基准测试，请引用：

bibtex @misc{vla-arena2025, title={VLA-Arena: A Comprehensive Benchmark for Vision-Language-Action Models}, author={Jiahao Li, Borong Zhang, Jiachen Shen, Jiaming Ji, and Yaodong Yang}, journal={GitHub repository}, year={2025} }

相关资源

项目主页：https://vla-arena.github.io
GitHub仓库：https://github.com/PKU-Alignment/VLA-Arena
文档：https://github.com/PKU-Alignment/VLA-Arena/tree/main/docs

搜集汇总

数据集介绍

构建方式

在机器人学习与多模态智能交叉领域，VLA_Arena_L0_M_hdf5数据集的构建体现了严谨的工程化流程。为确保数据质量与公平比较，该数据集经历了高分辨率再生、视角选择与旋转校正、成功轨迹筛选以及动作过滤优化等多重步骤。具体而言，原始演示在模拟器中重新执行，以生成256x256的高清RGB观测图像；仅采用静态第三人称视角并统一旋转180度以校正视觉倒置；所有轨迹均经过模拟回放验证，仅保留符合任务成功标准的样本；针对无操作动作，采用迭代优化策略，在关键状态转换点保留特定数量的无操作帧，以维持轨迹在回放中的成功率，从而构建出适用于标准训练场景的平衡演示集合。

特点

作为VLA-Arena基准测试中难度等级0的中等规模变体，该数据集具备鲜明的结构化与专业化特征。它涵盖了安全、干扰物、外推和长视野四个关键评估领域的60项 distinct任务，每条任务提供30条轨迹，共计1800条轨迹，形成了层次化的任务覆盖。数据严格遵循hdf5格式，集成了高分辨率视觉观测、七自由度连续控制信号以及自然语言任务指令，确保了多模态数据对齐。其设计核心在于为视觉-语言-动作模型提供系统化的训练基础，支持从基础物体操作到复杂场景泛化的能力评估，并通过统一的工具链实现从场景建模到最终评估的端到端支持。

使用方法

该数据集专为集成于VLA-Arena基准测试生态系统而设计，旨在训练可系统评估的视觉-语言-动作模型。使用者可通过加载标准化的hdf5格式数据，获取对齐的视觉观测、机器人状态、控制动作及语言指令，用于模型训练。训练后的模型可进一步在VLA-Arena框架内进行测试，该框架包含11个专项测试套件，难度从L0延伸至L2，全面评估模型在安全性、抗干扰性、泛化能力及长序列任务规划等方面的性能。具体评估指标、脚本及详细指南需参考项目官方文档与代码库，以确保符合基准测试的规范与可复现性。

背景与挑战

背景概述

VLA-Arena数据集由北京大学对齐团队于2025年发布，旨在为视觉-语言-动作模型提供系统性评估基准。该数据集构建了一个覆盖场景建模、演示收集、模型训练与评估的完整工具链，包含跨越11个专业套件的150余项任务，并通过分层难度等级对模型的安全性、泛化能力与效率进行综合度量。其核心研究问题聚焦于推动具身智能体在复杂现实环境中的可靠操作，为机器人学习与多模态交互领域设立了新的标准化评测体系，显著促进了相关算法的可比性与进展。

当前挑战

VLA-Arena数据集致力于解决机器人操作中视觉-语言-动作联合建模的挑战，包括在动态干扰下的稳定性保持、长时程任务规划、以及面对未知对象与场景的泛化能力。在构建过程中，数据集面临了多模态数据对齐的复杂性，例如高分辨率视觉观察的生成需通过仿真重渲染以提升保真度，而动作序列的优化则需迭代筛选关键状态转换附近的无操作动作，以平衡数据清洁与轨迹成功率，确保演示质量满足现代VLA骨干网络的训练需求。

常用场景

经典使用场景

在机器人学与多模态人工智能领域，VLA_Arena_L0_M_hdf5数据集为视觉-语言-动作模型的标准化训练与评估提供了核心资源。该数据集通过包含60个基础任务和1800条高质量人类演示轨迹，典型应用于模仿学习框架下的策略训练。研究者利用其结构化的观察、动作与语言指令数据，能够系统性地训练模型执行如物体抓取、放置等基础操作，为后续复杂场景的泛化奠定基础。

解决学术问题

该数据集致力于解决机器人操作中模型泛化性、安全性与长时程规划等关键学术挑战。通过涵盖安全、干扰、外推和长时程四大评估维度，它为量化模型在动态环境中的鲁棒性、应对未知干扰的能力以及执行多步骤任务的表现提供了基准。其层级化的难度设计（L0-L2）使得研究者能够逐步探究模型从基础到复杂任务的性能边界，推动了视觉-语言-动作模型在理论验证与算法改进方面的系统性进展。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在多模态机器人学习范式的创新与评估体系的完善。例如，研究者利用其构建的基准测试套件，开发了针对安全约束或长时程任务的专用VLA模型架构。同时，基于其提供的CBDDL任务定义语言，后续工作扩展了更多自定义场景与评估指标，促进了机器人学习社区在仿真训练、策略迁移与跨任务泛化等方面的算法比较与协作发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集