real_bright_stack_cubes

Hugging Face2025-07-19 更新2025-07-20 收录

下载链接：

https://huggingface.co/datasets/sincostangerines/real_bright_stack_cubes

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于机器人的数据集，包含了76个剧集，共39712帧，1个任务和152个视频。数据集以Parquet格式存储，并且每个剧集都被分割成块，每个块包含1000帧。数据集的特征包括机器人的动作位置、状态、笔记本电脑摄像头和手腕摄像头的视频数据等。数据集的许可协议为Apache-2.0。

创建时间：

2025-07-19

原始信息汇总

数据集概述

基本信息

许可证: apache-2.0
任务类别: robotics
标签: LeRobot
代码库版本: v2.1
机器人类型: so101_follower
帧率: 30 fps

数据集结构

总集数: 76
总帧数: 39712
总任务数: 1
总视频数: 152
总块数: 1
块大小: 1000
数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4
训练集划分: 0:76

特征

动作(action):
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
观测状态(observation.state):
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
观测图像(observation.images.laptop):
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息: 高度480, 宽度640, 编码av1, 像素格式yuv420p, 非深度图, 无音频
观测图像(observation.images.wrist):
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息: 高度480, 宽度640, 编码av1, 像素格式yuv420p, 非深度图, 无音频
时间戳(timestamp):
- 数据类型: float32
- 形状: [1]
帧索引(frame_index):
- 数据类型: int64
- 形状: [1]
集索引(episode_index):
- 数据类型: int64
- 形状: [1]
索引(index):
- 数据类型: int64
- 形状: [1]
任务索引(task_index):
- 数据类型: int64
- 形状: [1]

搜集汇总

数据集介绍

构建方式

在机器人操作任务研究领域，real_bright_stack_cubes数据集通过LeRobot平台系统构建，采用SO101型机械臂执行堆叠立方体任务。数据采集过程包含76个完整操作片段，总计39712帧图像与动作序列，以30fps帧率同步记录关节角度、夹爪状态及双视角视觉信息。所有数据以标准化parquet格式分块存储，确保时序一致性与高效读取。

特点

该数据集显著特征在于多模态数据融合，包含六自由度关节空间动作向量与完全对应的本体状态观测，辅以笔记本电脑视角和腕部摄像头双路高清视频流。视频采用AV1编码压缩，分辨率达640×480，兼具视觉丰富性与存储效率。数据维度涵盖时间戳、帧索引及任务标识元数据，为模仿学习与行为克隆研究提供结构化支撑。

使用方法

研究者可通过HuggingFace数据加载工具直接访问数据集，依据meta/info.json描述的路径结构解析parquet文件。典型应用流程包括加载动作-观测对训练端到端策略网络，或提取视觉特征进行行为分析。双路视频流支持视角对齐与跨模态表征学习，帧索引机制便于时序建模任务，整体设计兼容主流强化学习框架。

背景与挑战

背景概述

机器人操作数据集real_bright_stack_cubes由LeRobot团队基于Apache 2.0开源协议构建，专注于机械臂堆叠立方体的精细化操作任务。该数据集采用so101_follower型机器人平台，包含76个完整操作序列、39712帧多模态数据，通过双视角视觉系统（腕部与笔记本电脑摄像头）同步记录480×640分辨率视频流与6自由度关节控制指令。其设计初衷在于为模仿学习与强化学习算法提供高质量的真实世界操作数据，推动机器人自主操作能力的边界拓展。

当前挑战

该数据集核心挑战在于解决高精度操作任务中动作与视觉观测的时空对齐问题，需确保六轴关节角度指令与双视角视频帧的毫秒级同步。构建过程中面临多传感器数据融合的技术难点，包括异构数据流的时间戳校准、视频编码压缩带来的信息损失补偿，以及机械臂运动轨迹与视觉特征的一致性维护。此外，真实环境光照变化与物体位姿不确定性对数据质量提出了更高要求。

常用场景

经典使用场景

在机器人操作学习领域，real_bright_stack_cubes数据集通过记录六自由度机械臂堆叠立方体的完整操作序列，为模仿学习与强化学习算法提供多模态训练数据。其经典应用场景包括基于视觉反馈的端到端策略学习，研究者可利用腕部摄像头与笔记本电脑摄像头的双视角视频流，结合关节位置状态与动作指令，训练机械臂完成精细的物体操控任务。

解决学术问题

该数据集有效解决了机器人操作任务中样本效率低下与仿真到现实迁移的瓶颈问题。通过提供真实环境采集的高精度动作-观测对，它支持学术界研究跨模态表征学习、动作预测模型以及长期任务规划算法。其包含的39712帧同步传感器数据为验证离线强化学习、行为克隆等方法的实际性能提供了可靠基准，显著降低了真实机器人实验的成本与门槛。

衍生相关工作

基于该数据集的特性，已衍生出多模态融合决策网络、时空动作预测模型等创新研究。部分工作专注于改进基于Transformer的行为克隆架构，利用其长序列数据优化动作生成精度；另有研究结合逆动力学模型与视觉预训练技术，提升样本利用率。这些成果推动了LeRobot生态系统的完善，为开源机器人学习社区提供了重要技术支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集