record-red-bowl-real

Hugging Face2025-12-06 更新2025-12-07 收录

下载链接：

https://huggingface.co/datasets/tshiamor/record-red-bowl-real

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot框架创建，与机器人技术相关。数据集包含多种特征，如动作、观察（状态和来自不同视角的图像）、时间戳和索引。数据集由20个片段组成，共8765帧，存储在parquet文件中，并包含具有特定尺寸和格式的视频数据。

创建时间：

2025-12-06

原始信息汇总

数据集概述

基本信息

数据集名称: record-red-bowl-real
任务类别: 机器人学
标签: LeRobot
许可证: Apache-2.0
创建工具: LeRobot (https://github.com/huggingface/lerobot)

数据集规模

总情节数: 20
总帧数: 8765
总任务数: 1
数据文件总大小: 100 MB
视频文件总大小: 200 MB

数据结构

数据格式: Parquet
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
分块大小: 1000
帧率: 30 FPS
数据划分: 训练集 (0:20)

数据特征

动作

数据类型: float32
形状: [6]
字段名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
帧率: 30 FPS

观测状态

数据类型: float32
形状: [6]
字段名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
帧率: 30 FPS

观测图像（前视）

数据类型: 视频
形状: [480, 640, 3]
维度名称: 高度, 宽度, 通道数
视频信息:
- 高度: 480
- 宽度: 640
- 编码格式: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30 FPS
- 通道数: 3
- 是否包含音频: 否

观测图像（顶部）

数据类型: 视频
形状: [480, 640, 3]
维度名称: 高度, 宽度, 通道数
视频信息:
- 高度: 480
- 宽度: 640
- 编码格式: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30 FPS
- 通道数: 3
- 是否包含音频: 否

观测图像（末端执行器）

数据类型: 视频
形状: [480, 640, 3]
维度名称: 高度, 宽度, 通道数
视频信息:
- 高度: 480
- 宽度: 640
- 编码格式: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30 FPS
- 通道数: 3
- 是否包含音频: 否

元数据

时间戳: float32, 形状 [1], 帧率 30 FPS
帧索引: int64, 形状 [1], 帧率 30 FPS
情节索引: int64, 形状 [1], 帧率 30 FPS
索引: int64, 形状 [1], 帧率 30 FPS
任务索引: int64, 形状 [1], 帧率 30 FPS

机器人信息

机器人类型: so101_follower
代码库版本: v3.0

其他信息

主页: [信息缺失]
论文: [信息缺失]
引用格式: [信息缺失]

搜集汇总

数据集介绍

构建方式

在机器人操作任务的数据采集领域，record-red-bowl-real数据集通过LeRobot平台构建，体现了实际环境下的交互数据记录。该数据集包含20个完整的情节，总计8765帧数据，以30帧每秒的速率采集，确保了时序动作的连贯性。数据以分块形式存储，每块约1000帧，采用Parquet格式高效组织，同时辅以MP4格式的视频流，分别从前视、顶视和末端执行器视角捕捉图像，为机器人状态与动作的对应关系提供了多模态记录。

特点

该数据集的特点在于其多维度的观测与动作表征，不仅包含六自由度机械臂的关节位置作为动作空间，还同步记录了相同维度的状态观测。图像数据以480x640分辨率的三通道视频呈现，覆盖了机器人操作的关键视角，增强了环境感知的丰富性。数据集结构清晰，通过时间戳、帧索引和情节索引等元数据，支持精细的时序分析与任务划分，整体数据与视频文件分别占用100MB和200MB存储，平衡了数据密度与访问效率。

使用方法

使用该数据集时，研究者可依据其结构直接加载Parquet文件，获取机器人的动作、状态及多视角图像序列。数据集已预设训练分割，涵盖全部20个情节，适用于机器人模仿学习或强化学习算法的训练与验证。通过LeRobot提供的工具链，用户能够便捷地提取视频流与传感器数据，进行轨迹回放或特征提取，为实际场景下的抓取与操作任务提供基准数据支持。

背景与挑战

背景概述

在机器人学习领域，高质量的真实世界交互数据集对于推动模仿学习与强化学习算法的实际应用至关重要。record-red-bowl-real数据集由HuggingFace的LeRobot项目创建，旨在为机器人操作任务提供多模态演示数据。该数据集聚焦于单一任务场景，通过SO101型机器人采集了包含20个完整轨迹的交互记录，涵盖了关节状态、末端执行器动作以及多视角视觉观测，为研究机器人精细操作与感知决策一体化提供了宝贵的现实基准。

当前挑战

该数据集致力于解决机器人操作任务中模仿学习的挑战，其核心在于如何从有限的多模态演示中泛化出鲁棒的控制策略，并应对真实环境中的动态变化与感知不确定性。在构建过程中，面临数据采集同步性、多传感器标定一致性以及大规模视频数据高效存储与处理的工程难题，同时需确保动作与观测序列的时序对齐精度，以支撑后续算法的稳定训练。

常用场景

经典使用场景

在机器人学习领域，record-red-bowl-real数据集以其多视角视觉与关节状态同步记录的特性，为模仿学习与行为克隆提供了经典范例。该数据集通过前端、顶部及末端执行器摄像头捕捉的高帧率视频流，结合六自由度机械臂的精确动作轨迹，能够训练智能体在复杂环境中执行物体抓取与操作任务。研究者常利用这些丰富的感知数据，构建端到端的策略网络，使机器人能够从人类演示中学习精细的操控技能，从而在仿真与真实世界之间架起桥梁。

衍生相关工作

围绕该数据集，衍生出了一系列专注于机器人视觉运动控制的研究工作。这些工作通常利用其多模态序列数据，开发先进的时空建模架构，如基于Transformer的行为预测模型或分层强化学习框架。部分研究进一步探索了跨任务的知识迁移与少样本学习，推动了模仿学习与元学习在机器人领域的交叉融合，为构建通用型操作智能体奠定了算法与实验基础。

数据集最近研究