arx_dual_arm_carpet_fold_combined

Hugging Face2025-07-19 更新2025-07-20 收录

下载链接：

https://huggingface.co/datasets/kelvinzhaozg/arx_dual_arm_carpet_fold_combined

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot创建，采用Apache-2.0许可证。数据集包含101个剧集，157102帧，303个视频和1个数据块。每个视频的尺寸为240x424，使用av1编解码器和yuv420p像素格式，没有音频通道。数据集的结构详细描述了包含的视频、状态、动作和时间戳等信息。

This dataset was created using LeRobot and is licensed under the Apache-2.0 license. It contains 101 episodes, 157,102 frames, 303 videos, and 1 data chunk. Each video has a resolution of 240×424, employs the AV1 codec and the yuv420p pixel format, and has no audio channels. The dataset structure provides a detailed description of the included videos, states, actions, timestamps and other relevant information.

创建时间：

2025-07-19

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot
代码库版本: v2.1
机器人类型: arx

数据集结构

总集数: 101
总帧数: 157102
总任务数: 1
总视频数: 303
总块数: 1
块大小: 1000
帧率: 50 fps
分割: 训练集 (0:101)

数据文件

数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征

基础图像:
- 类型: 视频
- 形状: [240, 424, 3]
- 视频信息: 高度240，宽度424，编解码器av1，像素格式yuv420p，非深度图，50 fps，3通道，无音频
右手腕图像:
- 类型: 视频
- 形状: [240, 424, 3]
- 视频信息: 同基础图像
左手腕图像:
- 类型: 视频
- 形状: [240, 424, 3]
- 视频信息: 同基础图像
状态:
- 类型: float32
- 形状: [14]
动作:
- 类型: float32
- 形状: [14]
时间戳:
- 类型: float32
- 形状: [1]
帧索引:
- 类型: int64
- 形状: [1]
集索引:
- 类型: int64
- 形状: [1]
索引:
- 类型: int64
- 形状: [1]
任务索引:
- 类型: int64
- 形状: [1]

搜集汇总

数据集介绍

构建方式

在机器人操作任务数据采集领域，该数据集通过双机械臂平台执行地毯折叠任务构建而成。采用高频率传感器记录多视角视觉信息与状态动作序列，以50Hz采样率捕获了101条完整轨迹，共计157,102帧数据。数据以分块存储形式组织，每个数据块包含1000个时间步的观测-动作对，并采用Parquet格式高效压缩存储，确保原始动作感知信息的完整性与时序一致性。

特点

该数据集的核心特征在于其多模态异构数据的深度融合，包含三路同步视频流（基础视角、左右腕部视角）及14维状态动作向量。视觉数据采用AV1编码的240×424分辨率视频流，兼具轻量化与高保真特性；动力学数据以浮点精度记录机械臂的完整状态空间。所有数据均带有精确的时间戳与帧索引，支持端到端的模仿学习与强化学习算法验证。

使用方法

研究者可通过LeRobot框架直接加载该数据集进行机器人策略学习。数据按episode索引组织，支持流式读取与随机存取。典型应用包括：通过多视角视觉输入与动作序列的映射关系训练行为克隆模型，利用状态动作对构建动力学模型，或基于时间戳信息进行时序预测任务。数据集已预分为训练集，可直接用于模型训练与验证流程。

背景与挑战

背景概述

在机器人操作任务研究领域，arx_dual_arm_carpet_fold_combined数据集代表了双机械臂协同作业的重要进展。该数据集由HuggingFace的LeRobot项目团队构建，专注于解决复杂环境下的布料折叠任务。通过集成多视角视觉感知与高维状态动作空间，该数据集为模仿学习与强化学习算法提供了丰富的训练样本，推动家庭服务机器人精细化操作能力的发展。

当前挑战

该数据集核心挑战在于双机械臂运动协调与布料形变预测的复杂性，需解决高维动作空间下的精确控制问题。构建过程中面临多传感器时序同步、大规模视频数据存储与处理的技术难题，同时需确保动作轨迹在物理系统中的可重复性与安全性。视觉特征提取与状态动作映射的耦合关系亦构成重要研究难点。

常用场景

经典使用场景

在机器人操作学习领域，该数据集通过双机械臂协同折叠地毯的任务场景，为模仿学习和强化学习算法提供了多视角视觉观测与动作序列的对应关系。研究者可利用其包含的101条完整操作序列和157,102帧多摄像头视频数据，训练神经网络理解复杂操作任务的空间时序特征。

解决学术问题

该数据集有效解决了双机械臂协同操作中的状态表征学习难题，通过提供基座视角与双腕部视角的三路同步视频流，以及14维状态动作向量，为研究多模态感知与运动控制的对应关系提供了基准。其高精度时序标注突破了传统机器人数据集在复杂长时序任务中的监督信号缺失瓶颈。

衍生相关工作

该数据集催生了多项基于多视角视觉的模仿学习研究，包括跨视角特征对齐网络、双机械臂动作协同优化算法等创新工作。在LeRobot生态系统中，它成为评估分层强化学习框架在长时序任务中性能的重要基准，促进了机器人学习范式的标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集