svla_so101_pickplace

Name: svla_so101_pickplace
Creator: JerryCherryUryXey
Published: 2025-08-21 13:32:02
License: 暂无描述

Hugging Face2025-08-21 更新2025-08-21 收录

下载链接：

https://huggingface.co/datasets/JerryCherryUryXey/svla_so101_pickplace

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个机器人领域的数据集，使用LeRobot创建，包含50个训练片段，总计11939帧数据。数据集记录了so100_follower机器人的操作过程，包含6维动作控制信号（肩部平移、肩部升降、肘部弯曲、腕部弯曲、腕部旋转和夹爪位置）和相应的6维观测状态（相同的关节位置）。同时提供两个摄像头视角的视频数据：上视角和侧视角，分辨率均为640x480，30帧率。数据集还包含时间戳、帧索引、片段索引等元数据信息。

This is a robotics dataset developed using LeRobot, which consists of 50 training episodes with a total of 11939 frames. The dataset records the operational process of the so100_follower robot, including 6-dimensional action control signals (shoulder translation, shoulder lift, elbow flexion, wrist flexion, wrist rotation, and gripper position) and corresponding 6-dimensional observation states (identical joint positions). It also provides video data from two camera perspectives: top-down view and side view, both with a resolution of 640×480 and a frame rate of 30 fps. Additionally, metadata such as timestamps, frame indices, and episode indices are included in the dataset.

提供机构：

JerryCherryUryXey

创建时间：

2025-08-21

原始信息汇总

数据集概述

基本信息

名称: svla_so101_pickplace
许可协议: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集结构

总任务数: 1
总视频数: 100
总片段数: 50
总帧数: 11939
数据块数: 1
数据块大小: 1000
帧率: 30 FPS

数据格式

数据文件格式: Parquet
数据文件路径模式: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频文件路径模式: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征描述

动作特征

名称: action
数据类型: float32
形状: [6]
关节位置:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测特征

状态观测

名称: observation.state
数据类型: float32
形状: [6]
关节位置:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

图像观测 - 上方视角

名称: observation.images.up
数据类型: video
分辨率: 480×640×3
视频编码: av1
像素格式: yuv420p
深度图: 否
音频: 无

图像观测 - 侧面视角

名称: observation.images.side
数据类型: video
分辨率: 480×640×3
视频编码: av1
像素格式: yuv420p
深度图: 否
音频: 无

元数据特征

时间戳: float32, 形状[1]
帧索引: int64, 形状[1]
片段索引: int64, 形状[1]
索引: int64, 形状[1]
任务索引: int64, 形状[1]

分割信息

训练集: 片段0-50

技术信息

代码库版本: v2.1
机器人类型: so100_follower

搜集汇总

数据集介绍

构建方式

在机器人操作领域，数据集的构建往往依赖于真实世界的物理交互记录。svla_so101_pickplace数据集通过LeRobot平台精心采集，涵盖了50个完整的操作片段，总计11939帧数据。这些数据以Parquet格式存储，每个片段包含机器人的关节位置状态、动作指令以及来自顶部和侧面的双视角视频流，视频以AV1编码，帧率为30fps，分辨率统一为640x480。数据采集过程确保了时序的连贯性与多模态信息的同步对齐，为后续的模型训练提供了结构化的高质量轨迹记录。

特点

该数据集的核心特点在于其丰富的多模态表征与精细的结构化设计。它不仅提供了六自由度机械臂的关节位置作为动作与状态空间，还融合了双视角的视觉观测，从而全面捕捉操作场景的空间信息。数据组织以片段为单位，每个片段包含完整的任务执行轨迹，并附带精确的时间戳与帧索引，便于时序建模分析。此外，数据集采用高效的压缩编码与分块存储策略，在保证数据完整性的同时优化了存储与访问效率，适用于需要结合视觉与运动控制的机器人学习任务。

使用方法

使用svla_so101_pickplace数据集时，研究者可通过LeRobot提供的标准接口加载数据，直接访问预处理的Parquet文件。数据集已划分为训练集，包含全部50个片段，用户可依据帧索引或片段索引提取对应的状态、动作及视频序列。对于模型训练，建议将关节位置数据与双视角图像进行对齐，利用时间戳信息构建连续的轨迹样本。该数据集适用于模仿学习、强化学习等算法的开发与验证，尤其适合研究视觉-运动协同在抓取放置任务中的应用。

背景与挑战

背景概述

在机器人操作领域，模仿学习已成为实现复杂任务自主执行的关键范式。svla_so101_pickplace数据集由HuggingFace的LeRobot项目团队构建，专注于机械臂的拾放操作任务。该数据集采集自so100_follower型机器人，包含50条完整操作轨迹，共计11939帧多视角视觉观测与六维关节动作数据，旨在为机器人策略学习提供高质量的真实世界交互记录。其结构化存储与丰富的特征标注，为推进端到端机器人控制算法的研究奠定了重要基础。

当前挑战

该数据集致力于解决机器人拾放操作中的模仿学习挑战，其核心在于从高维视觉观测中提取有效特征并生成精确的连续动作序列。构建过程中的挑战包括多传感器数据的时空对齐、大规模视频数据的高效压缩存储，以及真实环境中动作示教轨迹的噪声抑制与一致性保证。此外，数据集的规模有限，涵盖的任务场景较为单一，难以支撑对复杂泛化能力的要求，这为后续研究留下了扩展与深化的空间。

常用场景

经典使用场景

在机器人操作领域，svla_so101_pickplace数据集为模仿学习与强化学习算法提供了关键支持。该数据集记录了机械臂执行拾放任务时的高维状态-动作序列，包含关节位置、视觉观测及时间戳信息。研究者可基于这些多模态轨迹数据，训练端到端的策略网络，使机器人能够从视觉输入中推断出精确的关节控制指令，实现自主的物品抓取与放置。

解决学术问题

该数据集有效应对了机器人学中样本效率低下与仿真到现实迁移的挑战。通过提供真实世界采集的机械臂操作数据，它降低了强化学习对大量交互试错的需求，为离线强化学习与行为克隆方法奠定了数据基础。其意义在于弥合了仿真环境与物理系统之间的表征差距，推动了数据驱动型机器人控制策略的实证研究。

衍生相关工作

围绕该数据集，学术界衍生出多项经典研究，例如基于Transformer的序列建模方法用于轨迹预测，以及结合视觉语言模型进行多任务泛化的探索。这些工作通常利用数据集中同步的视觉与关节状态信息，开发能够从少量演示中泛化到新物体或新环境的元学习框架，进一步拓展了数据集中操作技能的迁移边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集