smolvla_red_brick_cup

Hugging Face2026-04-07 更新2026-04-08 收录

下载链接：

https://huggingface.co/datasets/joshkrak/smolvla_red_brick_cup

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot项目创建，主要用于机器人技术领域的研究和应用。数据集包含30个任务片段，总计21817帧数据，数据文件大小为100MB，视频文件大小为200MB。数据以Parquet格式存储，视频以MP4格式存储，帧率为30fps。数据集包含多个特征字段，如动作数据（包括6个关节位置）、观测状态（同样包括6个关节位置）、两个摄像头的视频数据（分辨率为480x640，3通道），以及时间戳、帧索引、片段索引等元数据。适用于机器人控制、行为模仿等任务。

创建时间：

2026-04-07

原始信息汇总

数据集概述

基本信息

数据集名称: smolvla_red_brick_cup
创建工具: LeRobot
许可证: Apache-2.0
任务类别: 机器人学

数据集规模

总任务数: 1
总情节数: 50
总帧数: 34809
数据文件大小: 100 MB
视频文件大小: 200 MB
帧率: 30 FPS
数据块大小: 1000
代码库版本: v3.0
机器人类型: so_follower

数据划分

训练集: 包含所有50个情节

数据结构

数据以Parquet文件格式存储，路径模式为：data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet 视频以MP4文件格式存储，路径模式为：videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据特征

动作
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
观测状态
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
观测图像（相机1）
- 数据类型: 视频
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
  - 高度: 480
  - 宽度: 640
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 30
  - 通道数: 3
  - 包含音频: false
观测图像（相机2）
- 数据类型: 视频
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
  - 高度: 480
  - 宽度: 640
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 30
  - 通道数: 3
  - 包含音频: false
时间戳
- 数据类型: float32
- 形状: [1]
- 名称: null
帧索引
- 数据类型: int64
- 形状: [1]
- 名称: null
情节索引
- 数据类型: int64
- 形状: [1]
- 名称: null
索引
- 数据类型: int64
- 形状: [1]
- 名称: null
任务索引
- 数据类型: int64
- 形状: [1]
- 名称: null

可视化

可视化地址: https://huggingface.co/spaces/lerobot/visualize_dataset?path=joshkrak/smolvla_red_brick_cup

引用信息

主页: 未提供
论文: 未提供
BibTeX引用: 未提供

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集是推动算法发展的基石。smolvla_red_brick_cup数据集依托LeRobot平台构建，通过实际机器人操作任务系统采集数据。该数据集包含50个完整任务片段，总计34809帧数据，以30帧每秒的速率记录。数据以分块形式存储于Parquet文件中，每块约1000帧，同时配有对应的视频文件，确保了数据的高效访问与完整性。

特点

该数据集在机器人操作任务数据中展现出鲜明的多模态特性。其核心特征在于同步记录了六自由度机械臂的关节位置状态与动作指令，并融合了双摄像头视角的视觉信息，每路视频分辨率达640x480。数据结构设计严谨，包含时间戳、帧索引及任务索引等元数据，支持精细的时序分析与任务划分。这种状态-动作-视觉的联合表征为模仿学习与强化学习算法提供了丰富的训练素材。

使用方法

研究者可通过Hugging Face平台直接访问该数据集，利用其标准化的Parquet格式进行高效加载。数据集已预分为训练集，涵盖全部50个任务片段。典型使用流程包括：读取数据块，解析其中的关节状态、动作指令及对应的视频帧序列，进而用于训练机器人策略模型或进行行为克隆。数据集中清晰的结构定义使得其能够无缝集成到基于PyTorch或TensorFlow的现代机器学习管道中。

背景与挑战

背景概述

在机器人学习领域，模仿学习与视觉语言动作模型的发展正推动着具身智能的进步。smolvla_red_brick_cup数据集由HuggingFace的LeRobot项目创建，旨在为机器人操作任务提供高质量的多模态演示数据。该数据集专注于单一任务场景，通过搭载so_follower型机器人采集了50个完整交互序列，共计超过三万帧数据，融合了关节状态、双视角视觉信息及精确的时间戳，为训练端到端的视觉动作策略模型奠定了数据基础。其构建依托开源机器人框架，体现了社区协作在推动机器人泛化能力研究中的关键作用。

当前挑战

该数据集致力于解决机器人操作中视觉动作映射的复杂挑战，其核心在于如何从高维视觉观察中学习精确且鲁棒的动作策略。具体而言，挑战体现在多模态数据的对齐与融合上，双摄像头视角的时空一致性要求高，而关节动作的连续控制需与视觉变化保持精确对应。在构建过程中，数据采集面临硬件同步与标定难题，确保视频流与机械臂状态在毫秒级时间戳上严格同步至关重要。此外，大规模视频数据的压缩存储与高效读取，以及动作空间的维度与连续性设计，均为数据集构建带来了工程与算法层面的双重考验。

常用场景

经典使用场景

在机器人学习领域，smolvla_red_brick_cup数据集以其丰富的多模态数据为机器人操作任务提供了经典范例。该数据集记录了机械臂执行抓取红色砖块杯子的完整过程，包含关节状态、视觉图像和时间戳信息，常用于训练和评估模仿学习与强化学习算法。研究者利用其序列化动作-观测对，能够模拟真实世界中的物体操控场景，为机器人自主决策提供数据支撑。

衍生相关工作

围绕该数据集，学术界衍生出多项经典研究工作，例如基于LeRobot框架的视觉动作预测模型改进。这些工作利用其多模态特性，开发了融合时序信息的神经网络架构，提升了长期任务执行的稳定性。此外，数据集还被用于跨任务迁移学习的研究，为机器人技能复用提供了实证基础。

数据集最近研究