smolvla_tape_and_motor_degs

Hugging Face2025-12-10 更新2025-12-11 收录

下载链接：

https://huggingface.co/datasets/antwoor/smolvla_tape_and_motor_degs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot创建，与机器人技术相关。包含6个episodes、8141帧和12个视频，重点关注机器人动作和观察。特征包括动作（关节位置和夹持器位置）、观察状态（类似于动作）、来自两个摄像头的图像、时间戳、帧索引、episode索引和任务索引。数据集结构包含训练分割，并使用特定的数据和视频路径格式。

创建时间：

2025-12-01

原始信息汇总

数据集概述

基本信息

数据集名称: smolvla_tape_and_motor_degs
托管地址: https://huggingface.co/datasets/antwoor/smolvla_tape_and_motor_degs
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可协议: Apache-2.0
任务类别: 机器人学

数据集规模与结构

总情节数: 6
总帧数: 8141
总任务数: 1
总视频数: 12
数据块数: 1
数据块大小: 1000
帧率: 30 FPS
数据分割: 所有6个情节均用于训练 ("train": "0:6")
数据文件格式: Parquet
数据文件路径模式: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频文件路径模式: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

数据特征

数据集包含以下特征字段：

动作

字段名: action
数据类型: float32
形状: [7]
维度名称: ["joint1.pos", "joint2.pos", "joint3.pos", "joint4.pos", "joint5.pos", "joint6.pos", "gripper.pos"]

观测状态

字段名: observation.state
数据类型: float32
形状: [7]
维度名称: ["joint1.pos", "joint2.pos", "joint3.pos", "joint4.pos", "joint5.pos", "joint6.pos", "gripper.pos"]

观测图像 - 相机 1

字段名: observation.images.camera_1
数据类型: video
形状: [480, 640, 3]
维度名称: ["height", "width", "channels"]
视频信息:
- 高度: 480 像素
- 宽度: 640 像素
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30 FPS
- 通道数: 3
- 包含音频: 否

观测图像 - 相机 2

字段名: observation.images.camera_2
数据类型: video
形状: [480, 640, 3]
维度名称: ["height", "width", "channels"]
视频信息:
- 高度: 480 像素
- 宽度: 640 像素
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30 FPS
- 通道数: 3
- 包含音频: 否

索引与元数据

时间戳: timestamp (float32, 形状 [1])
帧索引: frame_index (int64, 形状 [1])
情节索引: episode_index (int64, 形状 [1])
索引: index (int64, 形状 [1])
任务索引: task_index (int64, 形状 [1])

技术细节

代码库版本: v2.1
机器人类型: mcx

搜集汇总

数据集介绍

构建方式

在机器人操作任务的数据采集领域，smolvla_tape_and_motor_degs数据集依托LeRobot框架构建而成。该框架专为机器人学习设计，通过实际部署的机械臂系统，以30帧每秒的速率同步记录多模态感知与控制指令。数据采集过程涵盖了6个完整的操作片段，总计8141帧，并以分块存储的Parquet格式高效组织，确保了时序动作与观测状态的结构化对齐。

特点

该数据集的核心特征体现在其丰富的多模态表征与精细的机器人状态标注。数据集不仅提供了双视角的视觉观测，每个视频帧分辨率为640x480，并采用AV1编码压缩，还完整记录了七维关节空间的动作指令与对应的本体状态，包括六个关节位置及夹爪开合度。这种同步的多源数据流为模仿学习与策略泛化研究提供了高保真的现实世界交互轨迹。

使用方法

针对机器人行为克隆与强化学习算法的验证，研究者可通过LeRobot库直接加载该数据集的Parquet文件与关联视频。数据已预分割为训练集，每一条记录均包含时间戳、帧索引与任务标识，便于按片段或时序进行批量采样。用户可灵活提取关节动作、状态观测及视觉图像，用于训练端到端的控制策略或进行多传感器融合的表示学习。

背景与挑战

背景概述

smolvla_tape_and_motor_degs数据集是机器人学领域的一项新兴数据资源，专注于机械臂操作任务的演示学习。该数据集由HuggingFace的LeRobot项目团队构建，旨在为机器人模仿学习与策略泛化研究提供高质量、多模态的示范数据。其核心研究问题在于如何通过有限的真实世界交互数据，训练出能够适应复杂物理环境的稳健控制策略。数据集收录了机械臂执行特定任务时的关节状态、图像观测及动作序列，为端到端机器人技能学习模型的开发与评估奠定了重要基础，对推动数据驱动的机器人自主操作能力发展具有积极意义。

当前挑战

该数据集致力于解决机器人模仿学习中从多模态演示数据到可泛化策略映射的挑战，具体包括高维视觉与状态空间的表征对齐、长时序动作序列的精确建模，以及跨场景的任务适应性提升。在构建过程中，面临数据采集的物理约束，如机械臂运动范围与安全限制，导致任务多样性与数据规模受限；同时，多传感器数据的同步与校准、大规模视频流的高效存储与处理，以及真实环境下的噪声干扰与标注一致性，均为数据集构建带来了显著的技术难题。

常用场景

经典使用场景

在机器人学习领域，smolvla_tape_and_motor_degs数据集以其多模态特性，为模仿学习与行为克隆研究提供了宝贵资源。该数据集记录了机械臂在特定任务中的关节位置、夹爪状态及双视角视觉数据，使得研究者能够基于真实世界交互轨迹，训练端到端的策略模型。通过整合状态观测与图像序列，它支持从高维感官输入到低维动作空间的映射学习，为机器人自主执行精细操作任务奠定了数据基础。

衍生相关工作

围绕该数据集，已衍生出多项聚焦于多模态表征学习与离线强化学习的经典工作。研究者利用其提供的状态-动作-视觉三元组，开发了基于Transformer的序列预测模型，以及结合视觉前馈与逆动力学的方法，以提升策略的鲁棒性与泛化性能。这些工作进一步拓展了数据集中时空一致性的利用方式，为机器人终身学习与少样本适应等前沿方向提供了重要参考。

数据集最近研究