leftarm_v2

Hugging Face2026-05-18 更新2026-05-19 收录

下载链接：

https://huggingface.co/datasets/BaboGaeguri/leftarm_v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于机器人学的开源数据集，使用LeRobot框架创建。它旨在支持机器人操控任务的学习与研究，特别是机械臂（左臂）抓取放置相关的任务。数据集包含310个完整的任务执行序列，共计164,332个时间步，涵盖2种不同的任务类型。数据以Parquet文件格式存储，并配有相应的视频文件。每个数据样本包含多模态观测和对应的机器人动作，具体字段包括：动作（6维浮点向量，表示机器人关节目标位置）、状态观测（6维浮点向量，表示机器人关节当前状态位置）、图像观测（提供顶部和腕部两个相机视角的彩色视频流，分辨率分别为640x480和480x640，帧率30fps，采用h264编码）以及元数据（如时间戳、帧索引、episode索引等）。所有数据均标记为训练集，适用于机器人模仿学习、强化学习、视觉运动策略学习等任务。

This dataset is an open-source dataset for robotics, created using the LeRobot framework. It aims to support learning and research in robot manipulation tasks, particularly those related to pick-and-place tasks with a robotic arm (left arm). The dataset contains 310 complete task execution episodes, totaling 164,332 frames, and covers 2 different task types. Data is stored in Parquet format with accompanying video files. Each sample includes multimodal observations and corresponding robot actions, with specific fields: action (a 6-dimensional float vector representing target positions for robot joints), observation.state (a 6-dimensional float vector for current joint positions), image observations (providing color video streams from two camera perspectives: top view at 640x480 resolution and wrist view at 480x640 resolution, both at 30fps with h264 encoding), and metadata (such as timestamp, frame index, episode index, etc.). All data is labeled as the training split and is suitable for tasks like imitation learning, reinforcement learning, and visual-motor policy learning.

创建时间：

2026-05-15

原始信息汇总

根据您提供的数据集详情页面信息，以下是该数据集的概述：

数据集概述

基本信息

数据集名称: leftarm_v2
许可证: Apache-2.0
任务类别: 机器人学 (robotics)
创建工具: 基于 LeRobot 框架创建
标签: LeRobot, smolvla, so101, leftarm, pick-place, hylion

数据集结构

机器人类型: so_follower
总片段数 (episodes): 310
总帧数 (frames): 164,332
总任务数: 2
块大小 (chunks_size): 1000
数据文件大小: 100 MB
视频文件大小: 200 MB
帧率 (fps): 30
数据分割: 全部 310 个片段用于训练 (train: 0-310)

特征 (Features)

动作 (action)

数据类型: float32
维度: 6
包含: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观察状态 (observation.state)

数据类型: float32
维度: 6
包含: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观察图像 (observation.images)

顶部摄像头 (top)
- 类型: video
- 分辨率: 640x480
- 颜色通道: 3
- 编码: H.264
- 像素格式: yuv420p
- 帧率: 30 fps
腕部摄像头 (wrist)
- 类型: video
- 分辨率: 480x640
- 颜色通道: 3
- 编码: H.264
- 像素格式: yuv420p
- 帧率: 30 fps

其他特征

timestamp: float32, shape [1]
frame_index: int64, shape [1]
episode_index: int64, shape [1]
index: int64, shape [1]
task_index: int64, shape [1]

数据文件路径

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架构建，专注于机器人抓取与放置任务。数据采集自so_follower型机器人平台，共收录310个完整操作轨迹片段，总计164,332帧时序数据。每条轨迹均以30帧每秒的速率记录，并通过分块压缩格式（Parquet）存储于data目录下，同时辅以高清视频文件（H.264编码）保存于videos目录，实现了结构化数据与视觉信息的高效整合。

使用方法

用户可通过HuggingFace平台直接加载该数据集，利用LeRobot库的标准化接口进行训练与评估。数据集已预设训练集切分（0至310号轨迹），支持按任务索引或帧索引灵活采样。推荐结合smolvLA等视觉-语言-动作模型框架使用，通过解析动作特征向量与图像序列实现机器人技能的端到端学习。

背景与挑战

背景概述

在机器人学习领域，基于视觉的灵巧操作与数据驱动方法正成为推动技能自主获取的关键技术。leftarm_v2数据集由BaboGaeguri团队基于LeRobot框架于近期创建，聚焦于单臂机器人的拾取与放置任务。该数据集记录了so_follower机器人共计310个示范片段、超过16万帧的高频交互数据，涵盖肩部、肘部、腕部及夹爪的六维动作空间，并同步采集了顶部与腕部两个视角的RGB视频流。其核心研究问题在于如何利用大规模、多模态的示范数据，训练机器人模仿复杂操作策略，从而提升泛化能力与任务执行的鲁棒性。作为开源数据资源，leftarm_v2为机器人学习领域提供了标准化的基准，尤其在模仿学习与视动联合模型训练中具有重要参考价值。

当前挑战

leftarm_v2数据集所解决的领域问题集中于机器人操作技能的模仿学习与泛化。传统方法往往依赖手工设计的控制策略，难以应对非结构化环境中的任务变体。该数据集通过提供高维状态-动作配对轨迹与多视角视觉观测，为学习端到端操作技能创造了条件。在构建过程中，数据采集需克服机器人运动的一致性、传感器同步的精度以及示范动作的多样性等挑战。此外，确保每个episode的动作序列与对应视频帧的严格对齐，并平衡不同任务间的样本分布，亦构成工程实现上的关键难点。数据压缩与存储格式的标准化更是为了支持大规模、可复用的模型训练需求。

常用场景

经典使用场景

左臂灵巧操作数据集（leftarm_v2）是面向机器人操控领域的珍贵资源，尤其聚焦于基于视觉的抓取与放置任务。该数据集包含310条演示轨迹，超过16万帧的高质量时序数据，由SO-100双臂机器人构型中的左臂部分采集而来。其经典使用场景在于训练基于模仿学习的策略，如行为克隆或扩散策略，使机器人能够从示教数据中学习精准的物体搬运与空间位置调整。数据中提供了来自顶部和腕部的双视角视觉观测，配合六维关节状态与动作信息，为构建端到端的视觉运动策略提供了标准化的训练基准。

解决学术问题

在学术研究中，针对机器人精细操作技能的学习，长期以来面临数据稀缺与维度诅咒的双重困境。该数据集系统地解决了从单一视角到多模态融合的视觉运动映射难题，为研究者提供了高保真度的演示数据。它使得探索基于Transformer架构的序列建模、潜空间动作表示学习以及跨任务泛化能力成为可能。通过标准化关节空间与图像空间的对应关系，leftarm_v2有力地推动了非结构化环境下机器人抓取与放置任务的鲁棒性研究，在减少策略部署时对精确模型依赖方面具有深远意义。

实际应用

在实际应用层面，该数据集的价值体现在工业装配与家庭服务机器人两大场景。以电子元器件装配为例，机器人可借助数据集训练的模型，通过顶部相机识别工件方位，结合腕部近摄视觉进行微米级精度调整，完成从拾取到插入的完整流程。在家庭环境中，机器人能够学习从桌面上抓取不规则物体（如杯子或玩具）并放置到指定容器中的灵巧操作。数据集规范化的数据格式兼容LeRobot框架，降低了从仿真到真机迁移的成本，加速了实验室成果向实际产线或服务场景的转化进程。

数据集最近研究