soarm101_pick_cubes_place_box

Hugging Face2026-01-21 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/edgarcancinoe/soarm101_pick_cubes_place_box

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含使用SOARM101机械臂对2 cm × 2 cm彩色立方体进行拾取和放置的演示，共有120个成功的远程操作片段。数据集分为单对象任务（60个片段，包含橙色立方体和固定容器位置，以及不同颜色立方体和移动容器的片段）、多对象任务（15个片段，包含多个橙色立方体）和无操作片段（5-10个片段，任务目标在开始时已满足，无需操作）。数据集的变异性来源包括对象放置、干扰物、容器位置和任务基数（单对象与多对象）。数据集的结构包括元数据信息、数据文件组织方式、视频文件路径以及各种特征的数据类型和形状。

创建时间：

2026-01-21

原始信息汇总

数据集概述

基本信息

数据集名称: soarm101_pick_cubes_place_box
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache 2.0
任务类别: 机器人学

数据集规模与结构

总任务数: 3
总情节数: 105
总帧数: 52862
帧率: 30 FPS
数据文件大小: 100 MB
视频文件大小: 200 MB
数据块大小: 1000
代码库版本: v3.0
机器人类型: so100_follower
数据分割: 训练集 (0:105)

数据文件与路径

数据文件格式: Parquet
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据特征

动作

数据类型: float32
形状: [6]
维度名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测状态

数据类型: float32
形状: [6]
维度名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测图像 (顶部摄像头)

数据类型: 视频
形状: [480, 640, 3]
维度名称:
- height
- width
- channels
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 包含音频: false

观测图像 (侧向摄像头)

数据类型: 视频
形状: [480, 640, 3]
维度名称:
- height
- width
- channels
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 包含音频: false

元数据

时间戳: float32, 形状 [1]
帧索引: int64, 形状 [1]
情节索引: int64, 形状 [1]
索引: int64, 形状 [1]
任务索引: int64, 形状 [1]

引用信息

主页: [More Information Needed]
论文: [More Information Needed]
BibTeX引用: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人操作领域，数据集的构建往往依赖于实际物理系统的交互记录。soarm101_pick_cubes_place_box数据集通过LeRobot平台，利用so100_follower型机器人执行拾取立方体并放置入箱的任务，采集了105个完整交互片段。数据以30帧每秒的频率同步记录机器人的关节位置状态、夹爪动作以及来自顶部和侧面摄像头的视觉信息，所有数据被结构化存储为Parquet格式文件，并辅以MP4格式的视频流，确保了多模态数据的对齐与完整性。

特点

该数据集的核心特征在于其多模态与高维度的数据组织。它不仅包含了机器人六维关节空间的位置指令与状态反馈，还提供了双视角的RGB视频流，每帧图像分辨率为640x480，编码为AV1格式。数据总量涵盖52862帧，按任务索引与片段索引进行层次化组织，支持高效的数据检索与流式加载。这种结构设计使得数据集能够同时服务于机器人控制策略的学习与视觉感知模型的训练，体现了机器人学习研究中仿真与实物数据融合的趋势。

使用方法

使用该数据集时，研究人员可通过LeRobot提供的数据加载接口，依据任务索引或片段索引访问特定的交互序列。数据以分块形式存储，每块包含1000帧，便于内存管理与批量处理。典型的应用流程包括加载关节动作与状态序列用于行为克隆或强化学习，同时解析视频文件以进行视觉表征学习或端到端策略训练。数据集已预设训练集划分，涵盖全部105个片段，用户可直接将其用于模型训练与验证，无需额外进行数据分割处理。

背景与挑战

背景概述

在机器人学习领域，模仿学习与强化学习的发展亟需高质量、大规模的真实世界交互数据集作为支撑。soarm101_pick_cubes_place_box数据集应运而生，它由LeRobot社区利用so100_follower型机器人平台采集构建，专注于机械臂的物体抓取与放置任务。该数据集收录了105条完整操作序列，包含超过五万帧的多视角视觉观测与六维关节动作数据，旨在为机器人操作策略的端到端学习提供丰富的训练样本。其结构化存储与多模态特性，为研究复杂场景下的灵巧操作问题奠定了数据基础，推动了数据驱动机器人技术的实用化进程。

当前挑战

该数据集致力于解决机器人视觉运动控制中的复杂操作任务，其核心挑战在于如何让模型从高维视觉输入中理解三维几何关系，并生成精确、平滑的关节空间动作序列以完成抓放任务。构建过程中的挑战则体现在数据采集的规模与质量平衡上：需要确保多相机视角的时空同步，维持长时间操作中动作指令的连贯性与安全性，同时高效处理与存储海量的视频流与状态数据，并保证数据标注在关节位姿与任务标签上的一致性。这些挑战共同构成了利用该数据集进行有效模型训练的瓶颈。

常用场景

经典使用场景

在机器人操作领域，soarm101_pick_cubes_place_box数据集为机械臂抓取与放置任务提供了丰富的示范数据。该数据集通过记录六自由度机械臂在拾取立方体并放置入箱的完整操作序列，包括关节位置、视觉观测和时间戳，成为训练模仿学习与强化学习模型的经典资源。研究者可依据这些多模态轨迹，构建端到端的策略网络，使机器人能够精准执行复杂的抓取规划与环境交互。

解决学术问题

该数据集有效应对了机器人学中示范数据稀缺与泛化能力不足的挑战。通过提供大量结构化操作轨迹，它支持学者探索样本效率更高的模仿学习算法，并促进跨任务策略迁移的研究。其多视角视觉与状态动作对的同步记录，为理解高维观测到低维控制的映射关系提供了实证基础，推动了机器人感知-动作一体化建模的进展。

衍生相关工作

围绕该数据集，已衍生出多项机器人学习领域的经典工作。例如，基于时空注意力机制的轨迹预测模型、结合视觉特征与状态编码的多任务策略网络，以及利用示范数据进行离线强化学习的算法改进。这些研究不仅深化了对机械臂操作的理解，也为后续更复杂的操作数据集构建与算法评估设立了重要基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集