so101-place-cube-on-plate

Hugging Face2025-12-08 更新2025-12-09 收录

下载链接：

https://huggingface.co/datasets/giacomoran/so101-place-cube-on-plate

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot创建，与机器人技术相关。包含150个episodes，总计54,415帧数据。数据集包含动作、观察（状态和来自手腕及头顶摄像头的图像）、时间戳和索引等特征。数据以parquet文件和视频格式存储，具体细节包括其结构和格式。

创建时间：

2025-12-07

原始信息汇总

数据集概述

基本描述

数据集名称: so101-place-cube-on-plate
创建工具: 使用 LeRobot 创建。
任务类别: 机器人学
标签: LeRobot
许可证: Apache-2.0

数据集结构

配置名称: default
数据文件: data//.parquet
代码库版本: v3.0
机器人类型: so101_follower
总任务数: 1
总情节数: 150
总帧数: 54415
帧率: 30 fps
数据块大小: 1000
数据文件大小: 100 MB
视频文件大小: 200 MB
数据分割: 训练集 (train): 0:150
数据文件路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据特征

动作

数据类型: float32
形状: [6]
特征名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测状态

数据类型: float32
形状: [6]
特征名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测图像（腕部）

数据类型: video
形状: [480, 640, 3]
特征名称: height, width, channels
视频信息:
- 视频高度: 480
- 视频宽度: 640
- 视频编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30 fps
- 通道数: 3
- 包含音频: false

观测图像（俯视）

数据类型: video
形状: [480, 640, 3]
特征名称: height, width, channels
视频信息:
- 视频高度: 480
- 视频宽度: 640
- 视频编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30 fps
- 通道数: 3
- 包含音频: false

其他特征

时间戳: 数据类型 float32，形状 [1]
帧索引: 数据类型 int64，形状 [1]
情节索引: 数据类型 int64，形状 [1]
索引: 数据类型 int64，形状 [1]
任务索引: 数据类型 int64，形状 [1]

引用信息

主页: [More Information Needed]
论文: [More Information Needed]
BibTeX引用: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人操作领域，数据集的构建对于算法训练至关重要。so101-place-cube-on-plate数据集通过LeRobot平台精心构建，记录了150个完整操作序列，总计54415帧数据。数据以分块形式存储于Parquet文件中，每块包含1000帧，确保了高效的数据管理与访问。同时，伴随每个数据块提供了对应的视频文件，以30帧每秒的速率捕捉了机器人腕部和顶部视角的视觉信息，为多模态学习提供了坚实基础。

使用方法

研究人员可利用该数据集进行机器人模仿学习或强化学习算法的开发。通过加载Parquet格式的数据文件，可以便捷地访问动作、状态观测及图像序列。视频文件与数据帧的对应关系允许进行端到端的视觉运动策略训练。数据集已预设训练分割，涵盖全部150个序列，用户可依据帧索引或任务索引提取特定片段，进行模型训练与验证，推动机器人灵巧操作技术的进步。

背景与挑战

背景概述

在机器人操作学习领域，模仿学习与强化学习等数据驱动方法的发展亟需高质量、大规模的真实世界交互数据集。so101-place-cube-on-plate数据集应运而生，它依托于LeRobot开源框架构建，专注于解决机器人执行精确物体摆放任务——即将立方体放置于盘子上的操作问题。该数据集收录了150个完整操作片段，包含超过5.4万帧的多模态数据，整合了机械臂的关节状态、末端执行器动作以及来自腕部和顶部摄像头的视觉观测。其核心研究价值在于为机器人灵巧操作提供了可复现的基准，推动了从仿真到真实环境的策略迁移研究，并促进了端到端机器人控制模型的训练与评估。

当前挑战

该数据集旨在应对机器人操作中复杂任务的学习挑战，特别是涉及多阶段序列决策与精细手眼协调的“放置”任务。这类任务要求模型从高维视觉输入中理解物体姿态、空间关系，并生成精确、稳定的关节控制序列。在构建过程中，挑战主要源于真实世界数据的采集：需要确保操作轨迹的多样性与成功率，同步记录多路高清视频与低延迟的关节状态数据，并处理传感器噪声、光照变化以及机械臂的动态不确定性。此外，数据的高效存储、标注与标准化格式组织，以支持大规模离线强化学习与行为克隆算法的训练，也是构建过程中的关键难题。

常用场景

经典使用场景

在机器人操作领域，so101-place-cube-on-plate数据集为机器人学习提供了一个经典的操作任务场景。该数据集聚焦于将立方体精准放置于盘子上的动作序列，通过记录机械臂的关节位置、夹爪状态以及多视角视觉信息，为模仿学习和强化学习算法提供了丰富的训练数据。研究人员可以利用这些数据训练模型理解物体抓取、移动和放置的完整流程，从而在仿真或真实环境中实现复杂的操作任务。

解决学术问题

该数据集有效解决了机器人操作中动作规划与视觉感知融合的学术难题。通过提供高维度的状态观测和动作标签，它支持研究如何从视觉输入中推断机械臂的控制策略，尤其是在非结构化环境下的精确操作问题。其意义在于推动了端到端机器人学习的发展，使得算法能够直接从原始传感器数据中学习策略，减少了对人工设计特征的依赖，为通用机器人操作系统的实现提供了数据基础。

实际应用

在实际应用中，so101-place-cube-on-plate数据集可服务于工业自动化与家庭服务机器人领域。基于该数据集训练的模型能够应用于装配线上的零件放置、仓储物流中的物品分拣，乃至日常生活中的餐具摆放等任务。通过模拟真实世界的操作挑战，它帮助机器人系统提升在动态环境中的适应性和鲁棒性，为实现更智能、自主的机器人解决方案铺平道路。

数据集最近研究