eval_xvla_cup_stacking_in-distribution

Name: eval_xvla_cup_stacking_in-distribution
Creator: Allen Institute for AI
Published: 2026-05-20 14:44:37
License: 暂无描述

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/allenai/eval_xvla_cup_stacking_in-distribution

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot平台创建，是一个面向机器人领域的开源数据集，采用Apache 2.0许可证。它记录了一个双臂机器人（bi_yam_follower）的演示数据，旨在支持机器人模仿学习或策略学习等任务。数据集包含50个完整的episodes，总计31,683帧数据，帧率为30 FPS。数据以Parquet文件格式存储，总数据量约100 MB，并配有相应的MP4格式视频文件，总视频大小约200 MB。每个样本包含动作和状态观测，均为14维浮点向量，分别对应左臂6个关节、左夹爪以及右臂6个关节、右夹爪的位置信息；图像观测提供了来自三个固定视角（右、左、顶）的RGB视频流，每个视频帧的分辨率为360x640，采用AV1编码。此外，数据还包含时间戳、帧索引、episode索引、任务索引等元数据字段。数据集仅提供训练集划分，适用于开发和学习双臂机器人的感知-动作映射模型。

This dataset is created using the LeRobot platform and is an open-source dataset for the robotics domain, licensed under Apache 2.0. It records demonstration data from a dual-arm robot (bi_yam_follower), aiming to support tasks such as robot imitation learning or policy learning. The dataset contains 50 complete episodes, totaling 31,683 frames with a frame rate of 30 FPS. Data is stored in Parquet file format, with a total data volume of approximately 100 MB, and includes corresponding MP4 format video files, with a total video size of about 200 MB. Each sample includes key features: action and state observation are both 14-dimensional floating-point vectors, corresponding to the position information of the left arms 6 joints and left gripper, as well as the right arms 6 joints and right gripper; image observation provides RGB video streams from three fixed perspectives (right, left, top), with each video frame having a resolution of 360x640 and using AV1 encoding. Additionally, the data includes metadata fields such as timestamps, frame index, episode index, and task index. The dataset only provides a training set split and is suitable for developing and learning perception-action mapping models for dual-arm robots.

提供机构：

Allen Institute for AI

创建时间：

2026-05-20

原始信息汇总

数据集概述：allenai/eval_xvla_cup_stacking_in-distribution

许可证: Apache-2.0
任务类别: 机器人学 (robotics)
创建工具: 基于 LeRobot 框架构建

数据集结构与规模

机器人类型: bi_yam_follower
总任务数: 1
总片段数: 50
总帧数: 31,683
帧率 (FPS): 30
数据文件大小: 100 MB
视频文件大小: 200 MB
分块大小: 1000 帧/块
分割设置: 所有 50 个片段均用于训练 (train: 0:50)

特征信息

特征名称	数据类型	形状	说明
action	float32	(14,)	14 维动作指令，包含左右各6个关节位置和1个夹爪位置
observation.state	float32	(14,)	14 维机器人状态，与动作指令维度相同
observation.images.right	video	(360, 640, 3)	右侧摄像头视频流，AV1编码，30 FPS，无音频
observation.images.left	video	(360, 640, 3)	左侧摄像头视频流，AV1编码，30 FPS，无音频
observation.images.top	video	(360, 640, 3)	顶部摄像头视频流，AV1编码，30 FPS，无音频
timestamp	float32	(1,)	时间戳
frame_index	int64	(1,)	帧索引
episode_index	int64	(1,)	片段索引
index	int64	(1,)	全局索引
task_index	int64	(1,)	任务索引

数据存储路径

数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

引用信息

当前页面未提供具体的引用 BibTeX 条目，标注为 [More Information Needed]。

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架构建，旨在服务于机器人叠杯任务的模仿学习研究。数据采集自一台双臂机器人（bi_yam_follower），通过遥操作或预设策略记录下完整的操作轨迹。数据集包含50个示范回合（episodes），总计31683帧时序数据，每帧记录有14维关节动作指令（包含左右各6个关节与1个夹爪）及对应的14维观测状态。视觉信息由三台摄像机（左侧、右侧、顶部）同步采集，生成360×640分辨率的AV1编码视频，帧率为30 FPS。数据以分块形式存储，每1000帧为一个chunk，便于高效加载与流式处理。所有数据均采用Apache-2.0许可证发布，可自由使用与再分发。

使用方法

数据集通过HuggingFace的datasets库与LeRobot工具链无缝集成，用户可直接使用`load_dataset`加载Parquet格式的时序数据与MP4视频。建议采用批量化流式读取方式处理分块数据，以优化内存使用。典型用法是提取`observation.state`作为策略输入，以`action`作为监督信号，训练基于行为克隆或隐式模仿学习模型的三维视觉-运动控制策略。视频帧可从`observation.images`字段解码，支持自定义图像增强与数据增强流水线。推荐配合LeRobot框架的训练与评估脚本使用，快速验证算法在真实机器人叠杯任务上的迁移表现。

背景与挑战

背景概述

在机器人学习与模仿学习领域，精细操作能力的泛化一直是核心挑战。eval_xvla_cup_stacking_in-distribution数据集由Hugging Face LeRobot团队创建，采用Bi-YAM双臂机器人平台，聚焦于杯子堆叠这一经典精细操作任务。该数据集包含50个示范片段，共计超过3万帧的高频时序数据（30 FPS），通过左右手及顶部三视角摄像头记录视觉信息，并同步采集14维关节角度与抓手状态。数据集以标准化Parquet和视频格式存储，严格遵循LeRobot框架规范，旨在为双臂协同操作中的状态-动作映射提供标准化基准，推动模仿学习算法在分布内场景下的可复现验证与性能评估。

当前挑战

该数据集所解决的领域问题聚焦于机器人精细操作中的分布内泛化能力评估，具体挑战包括：1）双臂协调控制中的高维状态-动作空间建模，14维连续动作输出与实时视觉观测的耦合需要算法有效处理时序依赖与空间冗余；2）杯子堆叠任务对末端执行器精准定位与力感知的严苛要求，单纯依赖视觉反馈难以应对堆叠过程中的细微姿态偏差与接触稳定性。构建过程中面临的挑战体现在：1）大规模示范数据采集需要精确同步多视角视频流与机器人遥操作指令，确保50个片段中不同堆叠起始配置与操作轨迹的多样性；2）数据标注与特征对齐需兼顾关节空间与操作空间的一致性，例如左右抓手的独立控制与协作逻辑的显式编码，增加了数据预处理与标准化难度。

常用场景

经典使用场景

在机器人操作与模仿学习领域，eval_xvla_cup_stacking_in-distribution数据集为双臂协作堆叠任务提供了标准化的评估基准。该数据集包含50个示范片段，共计31683帧高保真时序数据，涵盖14维关节空间动作与状态信息，并通过左、右、顶部三视角摄像头捕捉360×640像素的视觉观测。其经典用途在于训练和评测视觉-语言-动作（VLA）模型在同分布环境下的泛化能力，特别适用于验证模型对已知任务变体（如杯具位置偏移或光照变化）的鲁棒性能。

解决学术问题

该数据集系统性地攻克了机器人模仿学习中数据标准化缺失与可复现性不足的瓶颈问题。通过提供统一的数据格式（Apache Parquet与MP4视频流）、标准化的动作空间定义（左右各6自由度关节加夹爪）以及明确的任务索引，研究者得以精准量化模型在细粒度操作任务上的决策质量。其核心学术贡献在于构建了一个可横向对比的闭环评估体系，使得基于端到端学习的策略优化、多模态融合等前沿课题有了坚实的验证基石。

实际应用

在实际产业落地层面，eval_xvla_cup_stacking_in-distribution数据集直接服务于精密装配与柔性制造场景中的双臂机器人部署。例如，在电子元件或药瓶的自动化包装线上，机器人需实时协调双臂完成抓取、对齐与堆叠动作，该数据集提供的视觉-动作映射范例可有效缩短技能迁移周期。此外，应用于助老服务机器人领域，其堆叠操作能力可转化为帮助行动不便人士整理餐具、摆放物品等日常任务。

数据集最近研究