so101_cube_pickup_gamepad_classifier1

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/ba-13/so101_cube_pickup_gamepad_classifier1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于机器人操作任务的数据集，使用LeRobot工具创建。它专门设计用于机器人学习任务，包含机器人执行操作时的多模态观测数据和控制指令。数据集规模包括5个完整任务片段（episodes），共计1495个时间步（frames），数据总大小为100MB，视频数据为200MB，采样频率为10Hz。数据特征丰富：动作指令为4维浮点数，控制末端执行器在x、y、z方向的位移和夹爪开合；观测数据包括手腕摄像头采集的视频（3通道，128x128分辨率）、机器人关节状态（6个浮点数，对应肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转和夹爪角度）、末端执行器位置和姿态（x、y、z坐标和wx、wy、wz旋转角度及夹爪位置）。此外，还包含即时奖励、任务完成标志、离散惩罚信号、时间戳及各层级索引（帧、片段、任务）。该数据集适用于机器人强化学习、模仿学习、行为克隆等任务的研究与模型训练。

创建时间：

2026-05-20

原始信息汇总

数据集概述

基本信息

数据集地址: https://huggingface.co/datasets/ba-13/so101_cube_pickup_gamepad_classifier1
许可证: Apache-2.0
任务类别: 机器人学 (Robotics)
创建工具: 使用 LeRobot 框架创建

数据集结构

代码库版本: v3.0
总剧集数 (Episodes): 5
总帧数 (Frames): 1495
总任务数 (Tasks): 1
分块大小 (Chunk Size): 1000
数据文件大小: 100 MB
视频文件大小: 200 MB
帧率 (FPS): 10
数据分割: 训练集包含全部 5 个剧集 (索引 0 到 4)

特征 (Features)

数据集包含以下特征：

特征名称	数据类型	形状	说明
action	float32	(4,)	动作指令，包含 delta_x, delta_y, delta_z (位置增量) 和 gripper (夹爪控制)
next.reward	float32	(1,)	奖励值
next.done	bool	(1,)	是否结束
complementary_info.discrete_penalty	float32	(1,)	离散惩罚项
observation.images.wrist	video	(3, 128, 128)	腕部相机图像视频，分辨率 128x128，编码 AV1，10 FPS
observation.state	float32	(6,)	机器人关节状态，包含肩部、肘部、腕部等关节位置
observation.ee.x	float32	(1,)	末端执行器 X 坐标
observation.ee.y	float32	(1,)	末端执行器 Y 坐标
observation.ee.z	float32	(1,)	末端执行器 Z 坐标
observation.ee.wx	float32	(1,)	末端执行器 X 方向姿态
observation.ee.wy	float32	(1,)	末端执行器 Y 方向姿态
observation.ee.wz	float32	(1,)	末端执行器 Z 方向姿态
observation.ee.gripper_pos	float32	(1,)	夹爪位置
timestamp	float32	(1,)	时间戳
frame_index	int64	(1,)	帧索引
episode_index	int64	(1,)	剧集索引
index	int64	(1,)	数据索引
task_index	int64	(1,)	任务索引

数据存储格式

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据配置

配置文件名称: default
数据文件: data/*/*.parquet

搜集汇总

数据集介绍

构建方式

so101_cube_pickup_gamepad_classifier1数据集基于LeRobot框架构建，专注于机器人操作任务中的方块抓取场景。该数据集通过游戏手柄进行远程操控，采集了5个完整的操作片段（episode），总计1495帧数据，采样频率为10帧/秒。数据以Parquet格式存储，每1000帧为一个数据块，视频则以AV1编码的MP4格式保存，分辨率统一为128×128像素，覆盖了机械臂腕部摄像头的视觉观察。数据集的构建遵循了标准化的分割策略，全部数据用于训练，且仅包含一项抓取任务。

特点

该数据集以精细化的状态与动作空间为显著特征。动作空间包含4个维度（delta_x、delta_y、delta_z及夹爪控制），表征末端执行器的连续位移与夹取操作。观测状态则提供6维关节角度（如肩关节、肘关节等）以及末端执行器的笛卡尔坐标与姿态（wx、wy、wz），同时记录夹爪位置。每个时间步还附带奖励信号、完成标志及离散惩罚项，形成完整的强化学习回路。视觉输入源自腕部摄像头，为策略学习提供了高维图像特征与低维状态信息的互补性。

使用方法

使用者可通过LeRobot库轻松加载该数据集，利用其提供的标准API访问轨迹数据。数据集预设了单一任务（task_index）与统一的训练分割，适合用于模仿学习或强化学习的算法开发。用户可结合动作与观测特征，将其转换为适合策略网络输入的格式，例如归一化监督学习中的动作-状态对，或作为环境交互的离线数据缓存。借助Parquet与视频文件的分离存储，研究者能够高效进行批量训练与可视化回放，而数据集的Apache-2.0许可则保障了开源使用的灵活性。

背景与挑战

背景概述

在机器人学习领域，模仿学习与数据驱动的方法正逐渐成为研究热点，尤其是在抓取与操控任务中。so101_cube_pickup_gamepad_classifier1数据集由研究人员或机构通过LeRobot框架创建，专注于机械臂方块抓取任务，涉及基于游戏手柄的控制信号分类。该数据集共包含5个片段、1495帧数据，记录了机械臂末端执行器在三维空间中的位置变化与夹爪状态，并配备了腕部摄像头图像与机器人关节状态观测。其核心研究问题在于通过有限样本实现机器人对目标物体的精准操控与分类决策。尽管规模较小，该数据集展示了从遥操作数据到策略学习的完整流程，为后续在少样本模仿学习与机器人操控领域的探索提供了基础性资源。

当前挑战

该数据集面临的挑战首先体现在领域问题层面：机器人抓取任务要求模型在高维连续动作空间中实现精确的末端控制，同时处理视觉观测与状态信息的融合，这对模型的泛化能力与实时性提出了严苛要求，尤其是面对不同物体特征与动态环境时。其次，数据集构建过程中存在显著困难：仅有5个片段和1495帧的样本量，难以覆盖多样化的抓取场景与操作策略；同时，数据采集依赖游戏手柄遥操作，可能引入人为延迟与噪声，且未标注奖励信号（reward）为固定值，限制了强化学习方法的直接应用。此外，视频编码采用AV1格式并限制帧率为10，这在高频控制任务中可能导致时序信息缺失，进一步加剧了策略学习的难度。

常用场景

经典使用场景

在机器人学习与操控领域，so101_cube_pickup_gamepad_classifier1数据集为模仿学习与行为克隆提供了高保真的示范数据。该数据集记录了使用游戏手柄操控机械臂完成立方体抓取任务的完整轨迹，包含腕部摄像头视觉观测、六维关节状态、末端执行器位姿及夹爪开合度等精细模态信息。研究人员常将其作为基准，训练基于视觉的运动策略网络，使机器人能够从示范中学习抓取操作，验证算法在有限样本下的泛化能力。

实际应用

在实际工业场景中，该数据集可辅助开发基于视觉引导的自动化抓取系统。其包含的末端执行器位姿数据与夹爪控制信号，为焊接、分拣或装配机器人提供了可复现的轨迹模板。结合游戏手柄的操作模式，此数据集还可用于远程操作训练系统，使非专业用户能通过示范快速教会机器人完成特定任务，进而降低工业部署中编程与调参的人力成本。

衍生相关工作

基于该数据集格式，衍生出多个重要的研究工作。例如，利用其多模态观测结构，研究者开发了视觉-状态融合的注意力机制网络，提升了策略在杂乱场景中的鲁棒性；也有工作围绕数据集中的稀疏奖励信号设计了层级强化学习框架，将抓取任务分解为接近、调整与夹取子阶段。此外，该数据集的公开格式催生了像LeRobot这样的跨平台数据标准化工具，促进了机器人学习领域数据集的共享与复现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集