so101_pick_and_place_pink_cube_2boxes

Hugging Face2025-11-10 更新2025-11-11 收录

下载链接：

https://huggingface.co/datasets/msmandelbrot/so101_pick_and_place_pink_cube_2boxes

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人数据集，包含35个剧集，共18700帧，专注于一个任务。数据以Parquet文件格式存储，并包含对应的视频文件。数据集提供了多种特征，包括机器人动作的位置信息、不同视角的图像以及时间戳等。

创建时间：

2025-11-07

原始信息汇总

数据集概述

基本信息

数据集名称: so101_pick_and_place_pink_cube_2boxes
任务类别: 机器人技术
标签: LeRobot
许可证: Apache-2.0
创建工具: LeRobot (https://github.com/huggingface/lerobot)

数据集规模

总任务数: 1
总回合数: 35
总帧数: 18700
数据块大小: 1000
数据文件大小: 100 MB
视频文件大小: 500 MB
帧率: 30 FPS
训练集划分: 0:35

数据结构

数据文件路径

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

特征字段

动作特征

名称: action
数据类型: float32
维度: [6]
关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测状态

名称: observation.state
数据类型: float32
维度: [6]
关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

图像观测

手腕摄像头:

名称: observation.images.wrist
数据类型: video
分辨率: 480×640×3
视频编码: av1
像素格式: yuv420p
深度图: 否
音频: 无

上方摄像头:

名称: observation.images.up
数据类型: video
分辨率: 480×640×3
视频编码: av1
像素格式: yuv420p
深度图: 否
音频: 无

通用摄像头:

名称: observation.images.general
数据类型: video
分辨率: 480×640×3
视频编码: av1
像素格式: yuv420p
深度图: 否
音频: 无

索引字段

时间戳: float32 [1]
帧索引: int64 [1]
回合索引: int64 [1]
索引: int64 [1]
任务索引: int64 [1]

技术信息

代码库版本: v3.0
机器人类型: so101_follower

引用信息

主页: [More Information Needed]
论文: [More Information Needed]
BibTeX引用: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人操作任务研究领域，so101_pick_and_place_pink_cube_2boxes数据集通过LeRobot平台系统构建，采用so101_follower型机器人执行单一任务场景下的35次完整操作序列。数据以30帧/秒的采样频率记录，将18700帧动作序列按每1000帧为单位分割存储于parquet格式文件中，同时配备三路视角（腕部、上方及通用视角）的同步视频数据，形成多维度的机器人操作记录体系。

特点

该数据集在机器人学习领域展现出显著的多模态特性，其动作空间涵盖六自由度机械臂的关节位置与夹爪控制，观测空间则融合了关节状态数据与三路480×640分辨率的彩色视频流。所有数据均以严格的时间戳和帧索引进行对齐，支持对连续操作过程的帧级分析。数据集采用Apache 2.0许可协议，其规整的块存储结构和明确的元数据规范为算法开发提供了可靠基础。

使用方法

研究人员可通过解析parquet数据文件获取机器人动作指令与状态观测，配合对应MP4格式的视频文件实现视觉-动作联合分析。数据集默认划分为完整训练集，支持端到端模仿学习、行为克隆等算法的训练验证。使用时应遵循数据块索引规则，利用帧索引和回合索引实现时序数据的精确重构，同时注意各传感器数据的时空同步特性。

背景与挑战

背景概述

在机器人操作任务研究领域，so101_pick_and_place_pink_cube_2boxes数据集由LeRobot团队基于Apache 2.0协议构建，聚焦于机械臂执行物体抓取与放置的核心任务。该数据集通过so101_follower型机器人采集了35个完整操作序列，涵盖18700帧多视角视觉数据与六自由度关节控制指令，为模仿学习与强化学习算法提供了真实环境下的动作-观测配对样本。其结构化存储格式与多模态特征设计，显著推动了机器人任务泛化能力的研究进程。

当前挑战

该数据集致力于解决机器人精细操作中的动态抓取与目标定位难题，其核心挑战在于多视角视觉感知与关节运动轨迹的时空对齐问题。构建过程中面临传感器同步精度控制、跨视角视频数据一致性维护、以及高维度动作空间采样效率等工程障碍，同时需保证在有限任务场景下数据的动作多样性与状态覆盖度。

常用场景

经典使用场景

在机器人操作领域，so101_pick_and_place_pink_cube_2boxes数据集为机械臂抓取与放置任务提供了标准化实验环境。该数据集通过记录六自由度机械臂的关节位置、夹爪状态及多视角视觉数据，构建了完整的动作-观测序列，成为强化学习与模仿学习算法在机器人控制中的基准测试平台。研究者可利用其包含的35个完整任务片段和18700帧数据，训练机器人从视觉输入到动作输出的端到端策略，验证算法在复杂操作任务中的泛化能力。

衍生相关工作

以该数据集为基础衍生了系列机器人学习研究，包括基于时空注意力的操作策略网络、多视角视觉特征融合方法等创新工作。LeRobot开源框架进一步扩展了数据集的应用边界，催生了跨任务技能迁移、元强化学习等研究方向。相关成果推动了机器人操作知识的结构化表征研究，为构建通用机器人操作模型提供了重要的数据支撑与算法验证基础。

数据集最近研究