VLA_Arena_L0_L_lerobot_smolvla

Hugging Face2025-12-27 更新2025-12-28 收录

下载链接：

https://huggingface.co/datasets/VLA-Arena/VLA_Arena_L0_L_lerobot_smolvla

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是VLA-Arena基准测试的Level 0 (L0) - Large (L)变体，包含适合标准训练场景的平衡人类演示集。覆盖60个不同任务，共3000条轨迹（每条任务50条轨迹），任务套件涵盖安全、干扰、外推和长视野领域。数据格式严格遵循Lerobot数据集标准，包含高分辨率RGB图像（256x256）、机器人状态向量、7-DoF连续控制信号（末端执行器姿态+夹持器）和自然语言任务指令。数据集经过高分辨率再生、相机选择和旋转、成功过滤和动作过滤等严格预处理步骤，确保数据质量和公平比较。

创建时间：

2025-12-26

原始信息汇总

VLA-Arena数据集（L0 - 大型变体）概述

数据集基本信息

许可证：Apache-2.0
任务类别：机器人技术、视频分类、图像到文本
标签：vla-arena、机器人技术、多模态、模仿学习、视觉-语言-动作、lerobot、openpi
规模类别：10K<n<100K

数据集描述

该数据集是VLA-Arena基准测试数据的**第0级（L0）- 大型（L）**变体。它包含一组适用于标准训练场景的平衡人类演示数据。

覆盖任务：60个不同的第0级难度任务。
总轨迹数：3,000条（每个任务50条轨迹）。
任务套件：涵盖安全、干扰、外推和长视野领域。

格式与兼容性

该数据集严格按照Lerobot数据集的格式进行格式化，专门用于训练SmolVLA模型。

数据结构包含以下标准化特征：

观察：高分辨率RGB图像（256x256）和机器人状态向量。
动作：7自由度连续控制信号（末端执行器姿态 + 夹持器）。
语言：自然语言任务指令。

数据集构建与预处理

为确保高质量数据和公平比较，数据集经过了严格的构建和质量控制步骤：

1. 高分辨率重新生成 演示数据以更高的256 x 256分辨率重新渲染。对原始的128 x 128基准图像进行简单放大导致视觉保真度较差。我们在模拟器中重新执行记录的动作轨迹，以捕获适合现代VLA骨干网络的优质视觉观察。

2. 相机选择与旋转

视点：仅使用静态的第三人称相机图像。为确保基线之间的公平比较，丢弃了腕部相机图像。
旋转：所有第三人称相机图像在训练和测试时均旋转180度，以校正模拟环境中观察到的视觉反转。

3. 成功过滤 所有演示都在模拟环境中重新播放。任何在回放期间未能满足任务成功标准的轨迹都被过滤掉。

4. 动作过滤（迭代优化） 标准数据清理通常涉及过滤掉所有无操作动作。然而，我们发现完全移除无操作动作会显著降低在VLA-Arena设置中回放时的轨迹成功率。为解决此问题，我们采用了迭代优化策略：

我们尝试顺序保留N个无操作动作（N = 4, 8, 12, 16），特别是在关键状态转换点（例如夹持器闭合和打开）周围，而不是移除所有无操作动作。
只有在验证回放中仍保持成功的轨迹才被保留。

评估与使用

该数据集设计用于VLA-Arena基准测试生态系统内。它允许训练随后在11个专门套件中、难度级别从L0（基础）到L2（高级）进行测试的模型。

相关资源

项目主页：https://vla-arena.github.io
GitHub仓库：https://github.com/PKU-Alignment/VLA-Arena
文档：https://github.com/PKU-Alignment/VLA-Arena/tree/main/docs

搜集汇总

数据集介绍

构建方式

在机器人学与多模态学习交叉领域，VLA-Arena L0-L数据集的构建体现了对数据质量与公平比较的严谨追求。其构建过程始于高分辨率再生，通过重新在仿真环境中执行记录的动作轨迹，生成256x256像素的RGB图像，避免了简单上采样导致的视觉失真。为确保基准测试的一致性，仅采用静态第三人称视角图像，并统一旋转180度以校正仿真环境中的视觉倒置。所有演示均经过成功性重放验证，未达标的轨迹被过滤。针对动作序列的优化，研究采用了迭代策略，在关键状态转换点保留特定数量的无操作动作，从而在数据清洗与轨迹成功率之间取得了平衡。

特点

该数据集作为视觉-语言-动作模型评估基准的核心组成部分，具备多维度特性。其覆盖了安全、干扰、外推与长视野四大关键评估领域，包含60项基础任务，共计3000条轨迹，每条任务均提供50条平衡的人类演示数据。数据格式严格遵循Lerobot标准，专为训练SmolVLA模型设计，集成了高分辨率视觉观察、七自由度连续控制信号与自然语言任务指令。通过系统化的难度分级，数据集支持从基础操作到复杂场景的渐进式模型训练与评估，为机器人智能体的泛化能力与安全性提供了结构化测试基础。

使用方法

该数据集旨在集成于VLA-Arena基准测试生态系统中，服务于视觉-语言-动作模型的训练与评估。使用者可通过标准化数据接口加载高分辨率图像、机器人状态向量及对应动作序列，结合自然语言指令进行端到端模型训练。训练后的模型可进一步在涵盖11个专项测试套件、难度跨越L0至L2的评估框架中进行系统性测试，以衡量其在安全应对、环境抗干扰、知识外推与长序列任务执行等方面的性能。具体评估指标与脚本需参考项目代码库，确保实验复现与结果可比性。

背景与挑战

背景概述

VLA-Arena数据集由北京大学对齐团队于2025年推出，旨在为视觉-语言-动作模型构建一个系统性的评估基准。该数据集聚焦于机器人学与多模态学习领域，核心研究问题在于如何全面、客观地衡量智能体在复杂物理环境中的感知、决策与执行能力。通过涵盖安全、干扰、外推与长时域等关键维度，并设计了从基础到高级的层次化任务体系，该数据集为推进具身智能的发展提供了统一的评测工具链，对促进机器人模仿学习与通用人工智能的融合研究具有重要影响力。

当前挑战

该数据集致力于解决机器人领域中将视觉与语言指令映射为连续控制动作的核心挑战，其构建过程亦面临多重困难。在领域层面，挑战体现在如何设计涵盖安全性、抗干扰性、泛化能力与长序列规划的综合评估任务，以真实反映模型在动态、开放世界中的鲁棒性。在数据构建层面，挑战包括需通过高分辨率重新渲染以提升视觉保真度，精心筛选与校正摄像头视角以确保公平比较，以及采用迭代优化策略处理动作序列中的无效操作，在过滤噪声与保持轨迹成功率之间寻求平衡。

常用场景

经典使用场景

在机器人学习领域，VLA-Arena数据集作为系统化评估视觉-语言-动作模型的基准，其经典使用场景聚焦于模型训练与性能验证。该数据集通过提供涵盖安全、干扰、外推和长视野四大关键维度的多样化任务，支持研究者对模型在模拟环境中的泛化能力、鲁棒性和安全性进行分层测试。具体而言，研究者可利用其包含的60个基础任务和3000条高质量演示轨迹，训练如SmolVLA等模型，并在统一的评估框架下对比不同算法在复杂场景下的表现，从而推动机器人智能体在结构化环境中的行为学习与优化。

实际应用

在实际应用层面，VLA-Arena数据集为开发适应真实世界复杂需求的机器人系统提供了重要支撑。基于其构建的模型可应用于家庭服务、工业装配及危险环境作业等领域，例如让机器人理解自然语言指令后安全抓取物体、在动态干扰下稳定操作，或组合多步骤动作完成装配任务。数据集通过高保真视觉渲染与严格的成功轨迹筛选，确保了训练数据与现实场景的贴合度，助力研发能够处理不确定性、具备长期规划能力的智能体，为机器人技术的落地部署奠定了数据基础。

衍生相关工作

围绕VLA-Arena数据集，已衍生出一系列经典研究工作，主要集中在模型架构创新与评估方法拓展上。例如，SmolVLA模型利用该数据集的标准化格式进行端到端训练，实现了多模态指令到动作的高效映射；同时，许多研究基于其分层任务套件，开发了针对长视野规划或安全约束的专用算法。这些工作不仅验证了数据集在推动模型性能提升方面的价值，还进一步丰富了视觉-语言-动作领域的理论框架，促进了如CBDDL任务定义语言等工具的发展，为后续的基准迭代与跨领域应用提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集