arx-left-cube

Hugging Face2026-05-19 更新2026-05-20 收录

下载链接：

https://huggingface.co/datasets/Xia-2004/arx-left-cube

下载链接

链接失效反馈

官方服务：

资源简介：

ARX Left Cube YuHai HDF5 数据集是一个面向机器人学领域，专门用于遥操作和视觉运动控制研究的数据集。该数据集的核心内容是记录ARX-X5机器人左臂执行单臂立方体操作任务的遥操作演示片段。数据集共包含201个独立的演示片段（episodes），总计63,619帧数据，每个片段存储为一个HDF5文件。每个HDF5文件结构清晰，包含以下关键数据：1) 动作数据（action）：一个形状为(T, 5)的float32数组，其中T为片段长度，5个维度分别代表末端执行器在x、y、z方向上的平移增量（dx, dy, dz）、偏航角增量（dyaw）以及夹爪命令增量（d_gripper）。2) 时间戳（timestamp）：记录每帧数据的采集时间。3) 视觉观测：提供两个视角的RGB图像序列。pixels/cam_high（形状(T, 224, 224, 3), uint8）来自第三人称/顶部摄像头；pixels/cam_left_wrist（形状(T, 224, 224, 3), uint8）来自左腕的RealSense摄像头。4) 目标图像：对应每个摄像头视角的最终任务目标静态图像（goal_pixels/cam_high和goal_pixels/cam_left_wrist，形状均为(224, 224, 3), uint8）。此外，文件还包含指向观测图像的软链接。该数据集适用于机器人模仿学习、视觉运动策略学习、行为克隆等任务，为研究基于视觉反馈的机器人精细操作提供了多模态（动作、双视角图像、目标）的演示数据。

The ARX Left Cube YuHai HDF5 dataset is a dataset in the field of robotics, specifically designed for research on teleoperation and visual-motor control. The core content of this dataset records teleoperated demonstration episodes of the ARX-X5 robots left arm performing single-arm cube manipulation tasks. The dataset contains a total of 201 independent episodes, comprising 63,619 frames of data, with each episode stored as an HDF5 file. Each HDF5 file has a clear structure and includes the following key data: 1) Action data (action): a float32 array of shape (T, 5), where T is the episode length, and the five dimensions represent the translational increments of the end-effector in the x, y, and z directions (dx, dy, dz), the yaw angle increment (dyaw), and the gripper command increment (d_gripper). 2) Timestamp (timestamp): records the acquisition time for each frame of data. 3) Visual observations: provides RGB image sequences from two perspectives. pixels/cam_high (shape (T, 224, 224, 3), uint8) comes from a third-person/overhead camera; pixels/cam_left_wrist (shape (T, 224, 224, 3), uint8) comes from a RealSense camera on the left wrist. 4) Goal images: static images of the final task goal corresponding to each camera perspective (goal_pixels/cam_high and goal_pixels/cam_left_wrist, both with shape (224, 224, 3), uint8). Additionally, the files contain soft links to the observation images. This dataset is suitable for tasks such as robot imitation learning, visual-motor policy learning, and behavior cloning, providing multimodal (action, dual-view images, goals) demonstration data for research on robot fine manipulation based on visual feedback.

创建时间：

2026-05-11

原始信息汇总

ARX Left Cube YuHai HDF5 数据集概述

基本信息

数据集名称: ARX Left Cube YuHai HDF5 Dataset
许可证: Apache-2.0
任务类型: 机器人技术（Robotics）
标签: robotics, arx, teleoperation, hdf5, visuomotor
数据规模: 少于1000个样本

数据集描述

该数据集包含ARX-X5左臂单臂遥操作执行立方体操作任务的轨迹数据。每个轨迹（episode）存储为一个独立的HDF5文件。

数据集统计

轨迹数量: 201个（episode_000000.hdf5 至 episode_000200.hdf5）
总帧数: 63,619帧
图像格式: RGB图像，存储为 uint8 类型
动作格式: 存储为 float32 类型

HDF5 文件结构

每个 episode_*.hdf5 文件包含以下键：

键名	形状	数据类型	说明
`action`	`(T, 5)`	`float32`	每帧的末端执行器增量动作
`timestamp`	`(T,)`	`float64`	每帧的采集时间戳
`pixels/cam_high`	`(T, 224, 224, 3)`	`uint8`	第三方/顶部相机RGB帧
`pixels/cam_left_wrist`	`(T, 224, 224, 3)`	`uint8`	左腕RealSense相机RGB帧
`goal_pixels/cam_high`	`(224, 224, 3)`	`uint8`	顶部相机的最终目标图像
`goal_pixels/cam_left_wrist`	`(224, 224, 3)`	`uint8`	左腕相机的最终目标图像
`observations/pixels/cam_high`	软链接	-	链接至 `pixels/cam_high`
`observations/pixels/cam_left_wrist`	软链接	-	链接至 `pixels/cam_left_wrist`

动作格式

动作向量为5维：

[dx, dy, dz, dyaw, d_gripper]

dx, dy, dz: 末端执行器增量平移
dyaw: 末端执行器增量偏航角
d_gripper: 夹爪增量指令

动作列的顺序也记录在HDF5属性 action_order 中。

搜集汇总

数据集介绍

构建方式

该数据集依托ARX-X5左臂单臂遥操作平台，聚焦于立方体操控任务，以HDF5格式封装了201个独立操控回合。每个回合的观测信息源自两个视觉通道，即高位第三视角摄像头与左腕部RealSense相机，分别记录224x224分辨率的RGB图像序列。动作空间则在笛卡尔坐标系下定义为五维增量式末端执行器指令，涵盖平移、偏航及夹爪动作。最终回合的目标状态以静态目标图像形式存储，便于算法学习与目标比对。

特点

数据集具备多层次数据结构，核心元素包括动作序列、时间戳及多视角像素图像。尤为突出的是，其采用软链接机制将像素数据与观测空间关联，提升了数据访问的灵活性。每个HDF5文档结构紧凑，总计63,619帧RGB图像与五维动作记录共存，且动作数值以32位浮点数编码，支持高精度操控复现。数据集规模适中，适合小样本模仿学习或行为克隆算法的验证与调优。

使用方法

用户可通过Hugging Face Hub的CLI工具或Python的snapshot_download函数直接获取完整数据集，并自动存放至本地目录。加载示例脚本采用h5py库，可依次提取动作、多视角图像序列及目标图像张量，形成形状为(T,224,224,3)的视频帧数据。建议在模仿学习框架中，将action与对应帧配对构建训练对，同时利用goal_pixels作为条件信号，指导机器人末端轨迹规划。

背景与挑战

背景概述

ARX Left Cube YuHai HDF5数据集由研究人员Xia-2004创建，专注于机器人单臂遥操作任务中的方块操控场景。该数据集于近年发布，依托ARX-X5左臂机器人平台，通过遥操作方式采集了201个演示片段，总计63,619帧数据，为机器人视觉运动策略学习提供了标准化的训练资源。其核心研究问题在于如何利用高维视觉输入和低维动作信号实现精确的末端执行器控制，数据集中包含顶置及左腕双视角RGB图像、末端执行器增量动作及目标状态图像，为模仿学习和机器人操控研究奠定了数据基础。该数据集在机器人学习领域具有显著影响力，尤其推动了基于视觉的精细操控策略的发展，成为评估遥操作算法性能的基准之一。

当前挑战

数据集所解决的领域挑战在于机器人操控中从视觉观测到动作映射的复杂性问题，尤其是单臂系统在非结构化环境中的精确物体抓取与摆放任务。该类任务要求模型理解三维空间中的物体位姿变化，并实时输出连续的末端执行器位移与夹爪控制信号，对动作序列的平滑性和目标导向性提出了严苛要求。在数据集构建过程中，面临的挑战包括：遥操作采集时人类演示的轨迹一致性难以保证，不同操作者或重复演示间存在动作风格差异；HDF5格式的大规模帧序列存储对I/O效率和数据压缩策略提出了优化需求；此外，双摄像头视角下的图像标定对齐、动作增量与视觉特征的时间同步误差控制，均是构建高质量数据集所需克服的技术难点。

常用场景

经典使用场景

在机器人学习与灵巧操作领域，arx-left-cube数据集为单臂遥操作任务提供了标准化训练样本。该数据集包含201个完整的立方体操作演示片段，记录63,619帧来自高顶相机与左腕相机的RGB视觉观测以及五维末端执行器增量动作指令。研究人员可利用该数据训练模仿学习模型，例如行为克隆或逆强化学习，通过感知-动作映射实现机械臂的精准操控。其标准的HDF5存储格式与目标状态图像设计，使其特别适用于条件模仿学习方法的开发与评估。

实际应用

实际应用中，arx-left-cube数据集可作为工业装配与物料搬运场景中机器人自主学习系统的数据基础。工厂可基于该数据训练模型，使ARX-X5类型机械臂通过视觉反馈自动执行立方体对齐、放置等重复性操作，减少人工遥操作成本。同时，该数据集采集的多种视觉视角配置，为开发适应不同光照与遮挡条件的鲁棒视觉伺服控制器提供了真实场景验证素材，加速从实验室到产线的技术迁移。

衍生相关工作

基于该数据集已衍生了多项代表性工作：例如，利用其动作与图像标签训练的视觉运动策略可直接迁移至单步操作任务，相关研究常引用该数据评估条件变分自编码器与扩散策略在机器人操作中的效果。此外，部分工作借鉴其HDF5组织范式开发了多模态演示数据库，将立方体操作的动作先验应用于更复杂的堆叠与抓取任务中。这些衍生研究进一步推动了低样本条件下机器人技能泛化的方法论创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集