SmolVLA_Stacking_2

Hugging Face2026-04-20 更新2026-04-21 收录

下载链接：

https://huggingface.co/datasets/TANAY779/SmolVLA_Stacking_2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot项目创建，采用Apache-2.0许可证，专注于机器人技术领域。数据集包含51个episodes，共计72,279帧数据，存储为parquet格式文件，并配有相应的视频文件。数据仅包含训练集。数据集结构包括动作数据（如机械臂各关节位置）、观测状态（与动作数据相同的关节位置）、来自顶部和腕部摄像头的图像数据（分辨率960x1280，彩色三通道），以及时间戳、帧索引、episode索引等元数据。视频数据采用AV1编解码，帧率为30fps。数据集适用于机器人控制、行为模仿等相关研究任务。

创建时间：

2026-04-16

原始信息汇总

SmolVLA_Stacking_2 数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot
创建工具: 使用 LeRobot 创建

数据集规模与结构

总情节数: 51
总帧数: 72,279
总任务数: 1
数据文件大小: 100 MB
视频文件大小: 200 MB
帧率: 30 FPS
数据块大小: 1000
数据分割: 训练集 (0:51)

数据文件路径

数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

特征描述

动作特征

名称: action
数据类型: float32
形状: [6]
字段:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测特征

状态观测

名称: observation.state
数据类型: float32
形状: [6]
字段:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

图像观测 - 俯视视角

名称: observation.images.overhead
数据类型: video
形状: [960, 1280, 3]
维度名称: ["height", "width", "channels"]
视频信息:
- 高度: 960
- 宽度: 1280
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 包含音频: false

图像观测 - 腕部视角

名称: observation.images.wrist
数据类型: video
形状: [960, 1280, 3]
维度名称: ["height", "width", "channels"]
视频信息:
- 高度: 960
- 宽度: 1280
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 包含音频: false

元数据特征

时间戳: timestamp (float32, shape: [1])
帧索引: frame_index (int64, shape: [1])
情节索引: episode_index (int64, shape: [1])
索引: index (int64, shape: [1])
任务索引: task_index (int64, shape: [1])

代码库与机器人信息

代码库版本: v3.0
机器人类型: so_follower

缺失信息

主页: 需要更多信息
论文: 需要更多信息
引用格式: 需要更多信息

搜集汇总

数据集介绍

构建方式

在机器人操作领域，高质量的数据集对于推动模仿学习与强化学习算法的进步至关重要。SmolVLA_Stacking_2数据集依托LeRobot平台构建，通过记录一个六自由度机械臂执行堆叠任务的完整交互过程生成。数据采集过程涵盖了51个独立情节，总计超过七万帧的时序记录，并以30帧每秒的速率同步捕获来自顶部与腕部视角的高清视频流。原始数据经过结构化处理，被分割为以Parquet格式存储的数据块，确保了高效存储与访问，同时保留了动作指令、关节状态以及多模态观察信号之间的严格对齐。

使用方法

研究人员可利用该数据集训练和评估机器人视觉-动作策略模型。典型的使用流程始于通过LeRobot库或直接加载Parquet文件来访问数据，其中每个数据块包含动作、状态观测、图像及元数据。开发者可以依据帧索引或情节索引提取连续的轨迹片段，用于行为克隆或价值函数学习。双视角视频流可与关节状态数据融合，以构建端到端的控制模型。在进行模型训练前，建议依据数据集的固有划分，将全部51个情节用于训练集，并注意处理高维视频数据所需的计算资源与预处理步骤。

背景与挑战

背景概述

在机器人学习领域，模仿学习与强化学习的研究依赖于高质量、大规模的真实世界交互数据。SmolVLA_Stacking_2数据集应运而生，由LeRobot团队构建，专注于机器人堆叠任务的数据采集。该数据集通过整合多模态观测信息，包括机械臂关节状态、高分辨率视觉图像以及精确的时间戳，旨在为视觉语言动作模型提供训练基础。其核心研究问题在于如何从异构传感器数据中学习有效的控制策略，以提升机器人在复杂物理环境中的操作泛化能力。尽管具体创建时间与论文信息尚未公开，但该数据集的出现标志着机器人数据驱动方法向更精细任务迈进的趋势，对推动具身智能的实证研究具有潜在影响力。

当前挑战

该数据集致力于解决机器人堆叠操作中的策略学习挑战，其核心问题在于如何从高维视觉与状态观测中推断出精确、鲁棒的动作序列。具体而言，挑战体现在多模态数据的对齐与融合上，例如需要同步处理来自顶部与腕部摄像头的视频流，并确保其与关节位置数据的时间一致性。在构建过程中，数据采集面临真实环境的不确定性，如光照变化、物体物理特性差异以及机械臂控制噪声，这些因素可能导致数据分布偏移。此外，大规模视频数据的存储与高效检索，以及动作空间的连续控制精度要求，均为数据集构建带来显著技术障碍。

常用场景

经典使用场景

在机器人学习领域，数据集SmolVLA_Stacking_2为模仿学习与视觉-动作映射研究提供了经典范例。该数据集通过记录机械臂执行堆叠任务时的多视角视频与关节状态数据，构建了丰富的时空序列，使研究者能够训练模型从视觉观察中直接预测连续控制动作。其高分辨率的顶置与腕部摄像头捕捉了精细的操作细节，为端到端的策略学习奠定了数据基础，推动了视觉-语言-动作（VLA）模型在真实世界机器人任务中的应用探索。

解决学术问题

该数据集有效应对了机器人模仿学习中数据稀缺与多模态对齐的挑战。通过提供同步的视觉观测与精确的关节位置动作序列，它支持研究者解决高维视觉输入到低维动作空间的映射问题，促进了基于深度学习的策略泛化能力研究。其结构化标注有助于探索时序依赖建模与跨模态表示学习，为机器人自主执行复杂操作任务提供了可复现的实验基准，显著提升了学术社区在具身智能领域的实证研究水平。

实际应用

在实际工业与服务机器人场景中，SmolVLA_Stacking_2数据集能够直接应用于自动化堆叠、分拣与装配任务的算法开发。基于该数据训练的模型可部署于类似构型的机械臂系统，实现从视觉感知到动作执行的闭环控制，降低对精确环境建模的依赖。其多视角视觉数据增强了系统在遮挡或光照变化下的鲁棒性，为柔性制造、物流仓储等领域的智能化升级提供了可靠的技术支撑。

数据集最近研究