record-pick-up-by-box

Hugging Face2025-08-01 更新2025-08-02 收录

下载链接：

https://huggingface.co/datasets/nikka-140/record-pick-up-by-box

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人学相关的数据集，包含50个剧集，共计17,595帧，100个视频文件。每个视频文件都被分割成多个块，每块包含1000帧。数据集的结构包括动作、观察状态、正面和手腕处的图像、时间戳、帧索引、剧集索引、索引和任务索引等特征。数据集采用Apache-2.0许可证。具体的数据集描述和背景信息需要进一步提供。

创建时间：

2025-07-30

原始信息汇总

数据集概述

基本信息

名称: record-pick-up-by-box
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot
创建工具: LeRobot

数据集结构

数据文件格式: Parquet
配置名称: default
数据文件路径: data/*/*.parquet

元数据信息

代码库版本: v2.1
机器人类型: so101_follower
总集数: 50
总帧数: 17595
总任务数: 1
总视频数: 100
总块数: 1
块大小: 1000
帧率: 30 FPS
数据分割:
- 训练集: 0:50

数据路径

数据路径模板: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径模板: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征描述

动作 (action):
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
观测状态 (observation.state):
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
观测图像 (observation.images.front 和 observation.images.wrist):
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
  - 高度: 480
  - 宽度: 640
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 30 FPS
  - 通道数: 3
  - 是否包含音频: false
时间戳 (timestamp):
- 数据类型: float32
- 形状: [1]
帧索引 (frame_index):
- 数据类型: int64
- 形状: [1]
集索引 (episode_index):
- 数据类型: int64
- 形状: [1]
索引 (index):
- 数据类型: int64
- 形状: [1]
任务索引 (task_index):
- 数据类型: int64
- 形状: [1]

引用信息

BibTeX: [More Information Needed]

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot平台构建，专注于机器人操作任务的数据采集。通过记录SO101型跟随机器人在执行拾取任务时的多模态数据，包括关节位置、视觉观测和时间戳等信息。数据以50个完整任务片段的形式存储，每个片段包含17595帧30fps的时序数据，采用Parquet格式高效存储，并配有同步录制的多视角视频流。

特点

数据集呈现多维度的机器人操作特征，包含6自由度机械臂的关节位置动作指令和状态反馈，以及前视和腕部双视角的RGB视觉观测。数据采用严格的时序对齐，每帧数据均附带精确的时间戳和索引标记。视频数据采用AV1编码压缩，分辨率达640x480，在保证质量的同时优化存储效率。这种多模态、高精度的数据结构为机器人模仿学习研究提供了丰富的训练素材。

使用方法

研究者可通过加载Parquet文件访问结构化动作与状态数据，配合视频文件实现多模态分析。数据按任务片段组织，支持按帧索引或时间戳进行精确检索。建议使用LeRobot配套工具进行数据可视化与预处理，其内置的接口可高效解析动作指令与视觉观测的时空对应关系。训练集包含全部50个任务片段，适用于端到端策略学习或行为克隆等研究场景。

背景与挑战

背景概述

record-pick-up-by-box数据集是机器人操作领域的重要资源，由LeRobot团队基于开源机器人框架构建。该数据集聚焦于机械臂执行物体抓取任务时的多模态数据采集，包含50个完整操作序列、17595帧同步记录的运动状态与视觉信息。通过整合6自由度关节角度控制信号、前视与腕部双视角视频流，以及精确的时间戳标记，为机器人动作规划与视觉伺服控制研究提供了高精度基准。其采用Apache-2.0许可协议开放共享，显著促进了机器人学习算法的可复现性研究。

当前挑战

该数据集致力于解决机器人灵巧操作中的动作-视觉协同建模难题，其核心挑战在于跨模态时序对齐精度控制，以及高维连续动作空间与视觉观测的联合表征学习。数据构建过程中面临机械臂运动噪声抑制、多摄像头同步触发、大规模视频数据压缩存储等技术难点，需平衡30fps采样频率下的数据保真度与存储效率。此外，受限的50个任务样本量对深度强化学习算法的样本效率提出更高要求，如何从有限演示中提取通用操作策略成为关键研究瓶颈。

常用场景

经典使用场景

在机器人操作任务的研究中，record-pick-up-by-box数据集为机械臂抓取与放置任务提供了丰富的实验数据。该数据集通过记录机械臂在执行拾取盒子任务时的关节位置、视觉观察和时间戳信息，为机器人学习算法提供了多模态输入输出对的基准测试环境。其包含的前置摄像头和腕部摄像头视频流，结合六自由度机械臂的运动轨迹数据，特别适合用于研究视觉-运动协同控制问题。

解决学术问题

该数据集有效解决了机器人模仿学习中样本效率低下的关键问题。通过提供50个完整操作序列的高质量示教数据，研究人员能够深入分析机械臂在复杂操作任务中的运动规划策略。数据集包含的六维关节空间动作与双视角视觉观察的精确对齐，为研究端到端视觉运动策略、状态表示学习等前沿课题提供了理想实验平台，显著推动了机器人操作技能的算法开发进程。

衍生相关工作

该数据集已催生多项机器人学习领域的创新研究，包括基于深度强化学习的抓取策略优化、多视角视觉特征融合方法等关键技术突破。部分研究团队利用该数据集开发了新型模仿学习框架，显著提升了机械臂在部分可观测环境中的操作鲁棒性。数据集提供的标准化评估协议也为不同控制算法的性能比较建立了统一基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集