smolvla_test1__so100_pick_place_dataset

Hugging Face2025-07-16 更新2025-07-17 收录

下载链接：

https://huggingface.co/datasets/Ruth011/smolvla_test1__so100_pick_place_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于机器人任务的数据集，包含了so100类型的机器人执行pick_place和block_to_container等任务的视频和状态数据。数据集共有1个剧集，398帧，1个任务，2个视频和1个数据块，每个数据块大小为1000。数据以parquet格式存储，并提供了相关的特征信息，如机器人的动作、状态、图像等。

创建时间：

2025-07-14

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学 (robotics)
标签: LeRobot, so100, pick_place, block_to_container

数据集描述

创建工具: LeRobot
主页: 无提供
论文: 无提供

数据集结构

配置名称: default
数据文件: data//.parquet
元数据文件: meta/info.json

元数据详情

代码库版本: v2.1
机器人类型: so100
总片段数: 1
总帧数: 398
总任务数: 1
总视频数: 2
总块数: 1
块大小: 1000
帧率: 20 fps
分割: 训练集 (train): 0:1

数据路径

数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征

动作 (action):
- 数据类型: float32
- 形状: [6]
- 名称: main_shoulder_pan, main_shoulder_lift, main_elbow_flex, main_wrist_flex, main_wrist_roll, main_gripper
观测状态 (observation.state):
- 数据类型: float32
- 形状: [6]
- 名称: main_shoulder_pan, main_shoulder_lift, main_elbow_flex, main_wrist_flex, main_wrist_roll, main_gripper
观测图像 (observation.images.laptop):
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
  - 高度: 480
  - 宽度: 640
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 20
  - 通道数: 3
  - 是否有音频: false
观测图像 (observation.images.phone):
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
  - 高度: 480
  - 宽度: 640
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 20
  - 通道数: 3
  - 是否有音频: false
时间戳 (timestamp):
- 数据类型: float32
- 形状: [1]
帧索引 (frame_index):
- 数据类型: int64
- 形状: [1]
片段索引 (episode_index):
- 数据类型: int64
- 形状: [1]
索引 (index):
- 数据类型: int64
- 形状: [1]
任务索引 (task_index):
- 数据类型: int64
- 形状: [1]

引用

BibTeX: 无提供

搜集汇总

数据集介绍

构建方式

在机器人操作领域，smolvla_test1__so100_pick_place_dataset基于LeRobot框架构建，专注于抓取与放置任务。数据集通过SO100型机器人采集，包含398帧操作序列，以20fps的帧率记录机械臂关节角度状态和双视角视觉数据。数据以分块形式存储于Parquet文件，每块包含1000个时间步的连续操作记录，确保了时序完整性。

特点

该数据集独特之处在于同时提供机器人本体状态和双模态视觉观测。六维关节空间动作与状态数据精确对应，480×640分辨率的笔记本电脑与手机视角视频形成互补视觉信息。数据采用AV1编码压缩存储，在保持YUV420p格式下平衡了质量与效率，为模仿学习算法提供了多模态输入输出对齐的基准。

使用方法

研究者可通过加载Parquet文件直接访问时空对齐的多模态数据流，视频路径与状态数据索引自动关联。训练集划分覆盖全部398帧序列，动作空间包含肩部平移/旋转、肘部弯曲等6自由度控制量，适用于端到端策略学习或行为克隆。数据加载接口兼容标准机器人学习框架，支持直接输入到PyTorch或TensorFlow训练流程。

背景与挑战

背景概述

smolvla_test1__so100_pick_place_dataset是由LeRobot团队构建的机器人操作数据集，专注于解决机械臂抓取与放置任务中的智能控制问题。该数据集依托Apache 2.0开源协议发布，采用so100型机器人采集了包含398帧动作序列的完整操作轨迹，通过多视角视频流与六维关节状态数据，为机器人模仿学习与强化学习算法提供了高精度训练样本。其核心价值在于构建了从视觉感知到动作执行的闭环数据链，填补了模块化容器场景下机器人操作数据集的空白。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，机械臂在非结构化环境中的精准抓取需克服视觉遮挡、物体位姿估计误差与动态接触力学建模等难题；在数据构建层面，多传感器时序同步精度需控制在毫秒级，而6自由度机械臂的动作空间采样效率与视频数据的存储优化也构成显著工程障碍。当前版本仅包含单一任务场景的数据规模，亟待扩展多样化物体交互样本以提升算法泛化能力。

常用场景

经典使用场景

在机器人抓取与放置任务的研究中，smolvla_test1__so100_pick_place_dataset为算法开发提供了丰富的多模态数据支持。该数据集通过记录机械臂执行块体到容器的操作过程，包含关节角度、末端执行器状态及双视角视频流，为模仿学习与强化学习算法的训练与验证构建了标准化测试平台。其高精度的时序同步特性特别适合研究动作序列与视觉观测的关联建模。

实际应用

在工业自动化领域，该数据集可直接用于训练智能分拣系统的控制模型。其记录的SO100型机械臂操作数据能够加速仓储物流场景中物体抓取算法的开发，通过迁移学习技术可快速适配不同形态的抓取目标。双摄像头采集的RGB视频流为构建视觉伺服系统提供了真实的传感器噪声样本。

衍生相关工作

基于该数据集的特性，已催生出多项机器人学习领域的重要研究。包括基于Transformer的多模态策略编码器设计、跨视角视觉特征融合方法，以及针对稀疏奖励场景的分层强化学习框架。部分工作进一步扩展了原始数据集，增加了力觉传感器数据以研究触觉反馈在精细操作中的作用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集