smolvla_red_brick_cup_v2

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/joshkrak/smolvla_red_brick_cup_v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为机器人学任务设计的，包含80个片段，总计35551帧数据。数据集采用Apache-2.0许可证发布，数据格式为parquet文件，总数据量为100MB，视频文件大小为200MB。数据集包含机器人动作状态、观测状态（包括两个摄像头的视频数据）以及时间戳、帧索引等元数据。视频数据的分辨率为480x640，帧率为30fps，编码格式为av1。数据集适用于机器人控制、行为模仿等任务。

创建时间：

2026-04-08

原始信息汇总

数据集概述

基本信息

数据集名称: smolvla_red_brick_cup_v2
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集规模与结构

总任务数: 1
总回合数: 200
总帧数: 94202
数据块大小: 1000
数据文件大小: 100 MB
视频文件大小: 200 MB
帧率: 30 FPS
数据分割: 训练集 (0:200)

数据文件与路径

数据文件格式: Parquet
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据特征

动作特征

名称: action
数据类型: float32
形状: [6]
维度名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

状态观测特征

名称: observation.state
数据类型: float32
形状: [6]
维度名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

图像观测特征

相机1图像

名称: observation.images.camera1
数据类型: video
形状: [480, 640, 3]
维度名称: height, width, channels
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 是否包含音频: false

相机2图像

名称: observation.images.camera2
数据类型: video
形状: [480, 640, 3]
维度名称: height, width, channels
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 是否包含音频: false

元数据特征

时间戳: timestamp (float32, 形状 [1])
帧索引: frame_index (int64, 形状 [1])
回合索引: episode_index (int64, 形状 [1])
索引: index (int64, 形状 [1])
任务索引: task_index (int64, 形状 [1])

可视化

可视化页面: https://huggingface.co/spaces/lerobot/visualize_dataset?path=joshkrak/smolvla_red_brick_cup_v2

引用信息

主页: [More Information Needed]
论文: [More Information Needed]
BibTeX引用: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集对于训练智能体执行复杂任务至关重要。smolvla_red_brick_cup_v2数据集依托LeRobot平台构建，通过实际机器人操作采集了200个完整任务片段，总计94202帧数据。数据以分块形式存储于Parquet文件中，每块包含1000帧，确保了高效的数据管理与读取。采集过程中，机器人执行单一任务，同步记录来自两个摄像头的视觉信息以及六自由度机械臂的关节位置与动作指令，形成了多模态时序数据流。

使用方法

研究人员可利用该数据集进行机器人模仿学习、视觉运动策略训练等前沿探索。数据以标准Parquet格式组织，支持通过HuggingFace数据集库直接加载，并提供了可视化界面以直观浏览内容。使用时应依据meta/info.json中的结构定义，提取观测图像、状态向量及动作标签，构建状态-动作对用于模型训练。数据集已划分为训练集，涵盖全部200个片段，可直接用于端到端的策略学习或作为预训练数据源，推动机器人操作技能的智能化发展。

背景与挑战

背景概述

在机器人学习领域，模仿学习与视觉-语言-动作模型的发展正推动着机器人执行复杂操作任务的进步。smolvla_red_brick_cup_v2数据集由Hugging Face的LeRobot项目团队创建，旨在为机器人操作任务提供高质量的演示数据。该数据集专注于单一任务场景，包含200个完整的情节和超过9.4万帧的多模态记录，融合了关节状态、双视角视觉观察与对应的动作指令，为训练端到端的机器人策略模型奠定了数据基础。其构建依托于开源机器人框架，体现了社区驱动的研究范式，对推动具身智能与通用机器人控制算法的实证研究具有重要价值。

当前挑战

该数据集致力于解决机器人操作任务中的模仿学习与视觉-语言-动作对齐问题，其核心挑战在于如何从高维视觉观察中提取有效的状态表征，并生成精确、稳定的关节空间动作序列。在数据构建过程中，面临多模态数据同步与对齐的技术难题，需确保双摄像头视频流与机器人状态的时间一致性。此外，大规模演示数据的采集成本高昂，且需要保证任务执行的多样性与可靠性，以避免数据偏差并提升模型的泛化能力。数据集的单一任务设定也限制了其在跨任务迁移学习中的应用潜力。

常用场景

经典使用场景

在机器人学习领域，smolvla_red_brick_cup_v2数据集为视觉语言动作模型的训练提供了关键支持。该数据集通过记录机械臂执行单一任务（如抓取红色砖块或杯子）的连续动作序列，结合双摄像头视觉观测与关节状态数据，构建了多模态交互轨迹。研究者利用这些轨迹训练端到端策略，使机器人能够从视觉输入中理解任务意图并生成精确动作指令，从而在模拟或真实环境中实现物体操控。

解决学术问题

该数据集主要应对机器人模仿学习与视觉运动控制中的样本效率低下和泛化能力不足等核心挑战。通过提供大规模、结构化的多模态演示数据，它支持数据驱动方法（如行为克隆或强化学习）的模型训练，减少对昂贵人工编程或大量试错的依赖。其意义在于推动了视觉语言动作模型在机器人任务中的实证研究，为复杂场景下的自主操作提供了可复现的基准，加速了具身智能算法的迭代与优化。

实际应用

在实际机器人部署中，该数据集可应用于工业分拣、家庭服务或实验室自动化等场景。例如，基于数据集训练的模型能够引导机械臂识别特定颜色的物体（如红色砖块）并执行抓取、放置等操作，提升生产线上的灵活性与适应性。同时，其多模态数据格式便于集成到现有机器人控制框架，为开发适应动态环境的智能抓取系统提供了可靠的数据基础，降低了实际应用中的调试成本。

数据集最近研究