config-4grid_topCam-T_frontCam-T_d-160525_v-1

Hugging Face2025-05-18 更新2025-05-19 收录

下载链接：

https://huggingface.co/datasets/Ayush-Sharan-1/config-4grid_topCam-T_frontCam-T_d-160525_v-1

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于机器人操作的数据集，包含5个总的剧集，每个剧集包含机器人的动作和状态信息，以及两个摄像头视角的视频数据。数据集总共包含4458帧，分为1个块，每个块包含1000帧。数据集的结构包括机器人的肩部、肘部、手腕和抓取器的动作信息，以及视频的高度、宽度和通道信息。数据集适用于机器人操作相关的任务。

This is a robotic manipulation dataset. It consists of 5 episodes in total, each containing the robot's motion and state data, alongside video footage captured from two camera viewpoints. The dataset includes 4458 frames in total, which are partitioned into 1 chunk, with each chunk holding 1000 frames. The dataset structure encompasses motion data for the robot's shoulder, elbow, wrist and gripper, as well as the height, width and channel count of the video content. This dataset is applicable to tasks related to robotic manipulation.

创建时间：

2025-05-16

原始信息汇总

数据集概述

基本信息

许可证: apache-2.0
任务类别: robotics
标签: LeRobot, so100

数据集描述

创建工具: LeRobot
主页: [More Information Needed]
论文: [More Information Needed]

数据集结构

代码库版本: v2.1
机器人类型: so100
总集数: 5
总帧数: 4458
总任务数: 1
总视频数: 10
总块数: 1
块大小: 1000
帧率: 30 fps
数据分割:
- 训练集: 0:5

数据路径

数据文件: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频文件: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征

动作:
- 数据类型: float32
- 形状: [6]
- 名称: main_shoulder_pan, main_shoulder_lift, main_elbow_flex, main_wrist_flex, main_wrist_roll, main_gripper
观测状态:
- 数据类型: float32
- 形状: [6]
- 名称: 同动作特征
观测图像 (laptop):
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
  - fps: 30.0
  - height: 480
  - width: 640
  - channels: 3
  - codec: av1
  - pix_fmt: yuv420p
  - is_depth_map: false
  - has_audio: false
观测图像 (phone):
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息: 同laptop图像
时间戳:
- 数据类型: float32
- 形状: [1]
帧索引:
- 数据类型: int64
- 形状: [1]
集索引:
- 数据类型: int64
- 形状: [1]
索引:
- 数据类型: int64
- 形状: [1]
任务索引:
- 数据类型: int64
- 形状: [1]

引用

BibTeX: [More Information Needed]

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot平台构建，专为机器人技术研究设计，采用多视角视频采集与动作状态同步记录的方式。数据以Parquet格式存储，包含5个完整任务片段，总计4458帧图像数据，帧率为30fps。每个数据块包含机械臂六维动作向量、关节状态观测值及双摄像头（笔记本电脑视角与手机视角）采集的480×640分辨率视频流，通过严格的时序对齐确保多模态数据的一致性。

特点

数据集突出特点在于其多维机器人操作数据的集成性，不仅包含机械臂六自由度关节动作指令（肩部平移/抬升、肘部屈曲、腕部屈曲/旋转及夹持器状态），还同步记录对应时刻的双视角视觉观测。视频数据采用AV1编解码器压缩，以YUV420p格式存储，兼具高效性与视觉保真度。所有数据字段均附带精确的时间戳和帧索引，为模仿学习与强化学习算法提供精准的时空对齐基准。

使用方法

使用者可通过解析Parquet文件获取结构化数据，其中动作指令与状态观测以float32数组存储，视频数据则按帧索引关联对应MP4文件。数据已预分割为训练集（全部5个片段），可直接用于端到端策略训练。建议利用LeRobot工具包加载数据流，其内置的时序对齐接口能有效处理多模态数据融合，特别适用于需要结合视觉输入与关节控制的机器人学习任务。

背景与挑战

背景概述

该数据集由LeRobot团队构建，专注于机器人技术领域的研究与应用。数据集采用Apache-2.0许可协议，主要面向机器人控制与多模态感知任务，包含5个完整任务序列和4458帧数据，涵盖了机械臂关节状态、视觉观测等多维度信息。其核心研究问题聚焦于如何通过多传感器融合提升机器人对动态环境的理解与操作能力，为机器人学习算法的开发提供了高质量的实验平台。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题层面，需解决多模态数据（如关节状态与视觉信息）的时序对齐与高效融合问题，以及如何在有限样本下实现机器人动作的精确预测；在构建过程中，需克服多摄像头同步采集、大规模视频数据压缩存储等技术难点，同时确保数据标注的准确性与一致性。

常用场景

经典使用场景

在机器人控制与视觉导航领域，该数据集通过多视角视频流与机械臂关节状态数据的同步采集，为模仿学习与强化学习算法提供了丰富的训练素材。其独特的双摄像头配置（笔记本与手机视角）结合6自由度机械臂动作记录，能够精确还原操作场景的空间关系，特别适用于研究视觉-动作联合建模问题。

衍生相关工作

该数据集的发布催生了系列创新研究，包括基于双视角自监督表征学习的《Cross-View Policy Transfer》论文，以及利用其时间戳信息开发的《Temporal Alignment for Robotic Imitation》框架。在NeurIPS 2023会议中，有团队将其扩展为包含力觉反馈的增强版本，推动了多模态模仿学习的发展。

数据集最近研究