record-pick-and-place-so101

Hugging Face2025-11-19 更新2025-11-20 收录

下载链接：

https://huggingface.co/datasets/hbseong/record-pick-and-place-so101

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot创建，采用Apache-2.0许可证。数据集包含机器人类型为so101_follower的信息，共有182个剧集，85273帧，3个任务。数据集的文件大小包括100MB的数据文件和500MB的视频文件。数据集结构详细描述了动作、观察状态、顶部和右侧图像、时间戳、帧索引、剧集索引、索引和任务索引等特征的数据类型、形状和其他相关信息。

创建时间：

2025-11-18

原始信息汇总

数据集概述

基本信息

数据集名称: record-pick-and-place-so101
创建工具: LeRobot
许可证: Apache-2.0
任务类别: 机器人技术

数据集规模

总任务数: 3
总回合数: 182
总帧数: 85273
帧率: 30 FPS
数据文件大小: 100 MB
视频文件大小: 500 MB

数据结构

数据组织

数据文件格式: Parquet
数据文件路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
分块大小: 1000
数据划分: 训练集 (0:182)

特征字段

动作特征

字段名: action
数据类型: float32
维度: [6]
关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测特征

状态观测:

字段名: observation.state
数据类型: float32
维度: [6]
关节名称: 与动作特征相同

图像观测: 顶部摄像头:

字段名: observation.images.top
数据类型: video
图像尺寸: [480, 640, 3]
视频参数:
- 高度: 480
- 宽度: 640
- 通道数: 3
- 编码格式: av1
- 像素格式: yuv420p
- 帧率: 30
- 非深度图
- 无音频

右侧摄像头:

字段名: observation.images.right
数据类型: video
图像尺寸: [480, 640, 3]
视频参数: 与顶部摄像头相同

索引特征

时间戳: timestamp (float32, [1])
帧索引: frame_index (int64, [1])
回合索引: episode_index (int64, [1])
索引: index (int64, [1])
任务索引: task_index (int64, [1])

技术规格

代码库版本: v3.0
机器人类型: so101_follower

搜集汇总

数据集介绍

构建方式

在机器人操作研究领域，record-pick-and-place-so101数据集通过LeRobot平台系统采集了182个完整操作序列，涵盖85273帧高精度数据。数据以分块存储形式组织，每块包含1000帧记录，采用Parquet格式高效保存机械臂关节位置、夹爪状态及多视角视觉信息，确保了数据结构的完整性与可扩展性。

特点

该数据集显著特点在于融合了六自由度机械臂的连续动作轨迹与双路480p彩色视频流，以30帧/秒的同步频率记录顶部与右侧视角。特征维度包含关节空间坐标与图像张量，支持多模态学习任务，其任务索引机制可区分抓取、放置等三类典型操作场景，为模仿学习提供丰富时空上下文。

使用方法

研究者可通过加载标准Parquet文件直接访问时空对齐的多模态序列，利用帧索引与回合索引重构完整操作轨迹。视频数据采用AV1编码存储，配合预定义特征字典可快速提取关节角度与视觉观察量，适用于行为克隆、强化学习等算法的训练与验证，所有数据均划分为单一训练集以支持端到端模型开发。

背景与挑战

背景概述

在机器人操作任务研究领域，模仿学习作为实现智能体自主行为的重要范式，持续推动着机械臂控制技术的发展。record-pick-and-place-so101数据集由HuggingFace的LeRobot项目团队构建，专注于解决工业场景中常见的抓取与放置任务。该数据集通过SO101型机械臂采集了182个完整操作序列，涵盖85273帧多模态数据，其核心价值在于提供了包含关节状态、视觉观测与动作指令的同步记录，为研究端到端机器人控制算法奠定了数据基础。

当前挑战

机器人操作任务面临动作序列长程依赖与多模态感知融合的双重挑战，需在复杂环境中实现精准的轨迹规划与抓取力度控制。数据集构建过程中，机械臂状态采集需保持毫米级精度同步，双视角视觉数据需解决光照变化与遮挡干扰，而动作指令的时序一致性维护则要求严格的硬件校准与数据校验机制。

常用场景

经典使用场景

在机器人操作学习领域，该数据集通过记录182个完整操作序列与85273帧多视角视觉数据，为模仿学习算法提供了标准化的训练环境。研究者可利用其包含的关节位置控制指令与同步视觉观测，构建端到端的抓取放置策略模型，显著提升了机械臂在非结构化环境中的动作泛化能力。

衍生相关工作

基于该数据集衍生的时空注意力网络ST-Transformer，通过融合多视角视觉特征与运动序列建模，在机器人操作任务中实现了94.7%的抓取成功率。后续研究进一步扩展出分层强化学习框架HierAct，将复杂任务分解为可重用的动作基元，推动了模块化机器人智能的发展。

数据集最近研究