assemble_box_with_phone_stand

Hugging Face2026-04-03 更新2026-04-04 收录

下载链接：

https://huggingface.co/datasets/Xense/assemble_box_with_phone_stand

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过LeRobot创建的，主要用于机器人技术领域的研究和应用。数据集包含21个完整的情节，总计176114帧，涉及单一任务。数据以parquet文件格式存储，总数据文件大小为100MB，视频文件大小为500MB，帧率为30fps。数据集包含丰富的特征，包括20维的动作和观察状态向量，以及来自头部、左右手腕和触觉传感器的多视角视频观察（分辨率分别为480x640和400x700）。所有视频均采用h264编码，yuv420p像素格式，无音频。数据集还包含时间戳、帧索引、情节索引等元数据，适用于机器人控制、行为克隆和强化学习等任务。数据集采用Apache-2.0许可证发布。

创建时间：

2026-04-03

原始信息汇总

数据集概述

基本信息

数据集名称: assemble_box_with_phone_stand
创建工具: LeRobot
任务类别: 机器人学
标签: LeRobot
许可证: Apache-2.0

数据集规模

总任务数: 1
总情节数: 21
总帧数: 176,114
帧率: 30 fps
数据块大小: 1000
数据文件总大小: 100 MB
视频文件总大小: 500 MB
代码库版本: v3.0
机器人类型: bi_flexiv_rizon4_rt

数据划分

训练集: 包含所有21个情节（索引0至21）

数据结构与特征

数据以Parquet文件格式存储，路径模式为：data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet。视频以MP4文件格式存储，路径模式为：videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4。

特征详情

1. 动作

数据类型: float32
形状: [20]
描述: 包含左右机械臂末端执行器（TCP）的6维位姿（x, y, z, r1, r2, r3, r4, r5, r6）以及左右夹爪的位置。

2. 观测状态

数据类型: float32
形状: [20]
描述: 与动作特征相同，包含左右机械臂末端执行器的6维位姿及左右夹爪位置。

3. 图像观测

所有视频特征编码为H.264，像素格式为yuv420p，无音频，帧率为30 fps。

头部图像
- 数据类型: video
- 形状: [480, 640, 3]
左腕部图像
- 数据类型: video
- 形状: [480, 640, 3]
右腕部图像
- 数据类型: video
- 形状: [480, 640, 3]
左触觉图像 0
- 数据类型: video
- 形状: [400, 700, 3]
左触觉图像 1
- 数据类型: video
- 形状: [400, 700, 3]
右触觉图像 0
- 数据类型: video
- 形状: [400, 700, 3]
右触觉图像 1
- 数据类型: video
- 形状: [400, 700, 3]

4. 索引与时间戳

时间戳: 数据类型为float32，形状为[1]。
帧索引: 数据类型为int64，形状为[1]。
情节索引: 数据类型为int64，形状为[1]。
索引: 数据类型为int64，形状为[1]。
任务索引: 数据类型为int64，形状为[1]。

引用信息

主页: 信息缺失
论文: 信息缺失
BibTeX引用: 信息缺失

搜集汇总

数据集介绍

构建方式

在机器人操作任务的数据采集领域，assemble_box_with_phone_stand数据集依托LeRobot平台构建而成。该数据集通过双臂Flexiv Rizon 4机器人执行装配任务，记录了21个完整操作片段，共计176,114帧数据，以30帧每秒的速率采集。数据以分块形式存储于Parquet文件中，每块包含1000帧，确保了高效的数据管理与访问。采集过程涵盖了机器人末端执行器的位姿、夹爪状态以及多视角视觉信息，为后续分析提供了结构化基础。

特点

该数据集在机器人操作任务中展现出多维度的数据表征特点。其核心特征在于同时整合了动作指令与状态观测，动作空间包含左右机械臂的六维位姿及夹爪位置，观测空间则融合了头部、腕部及触觉传感器的视觉流。视觉数据以标准视频格式编码，分辨率分别为640x480与700x400，支持RGB三通道，且触觉图像提供了精细的接触反馈。时间戳与索引信息完整，便于时序对齐与任务分析，整体数据结构清晰，支持机器人学习算法的训练与验证。

使用方法

针对机器人模仿学习与策略训练的应用场景，该数据集提供了便捷的调用方式。用户可通过LeRobot工具加载数据，直接访问分块存储的Parquet文件，其中包含动作、观测及元数据字段。视觉数据以MP4视频文件形式关联，支持帧级提取与处理。数据集已预设训练划分，涵盖全部21个片段，适用于端到端的行为克隆或强化学习模型开发。研究人员可依据任务需求，灵活提取机械臂控制指令或多模态观测序列，以推动双臂协作操作算法的进步。

背景与挑战

背景概述

在机器人操作领域，双手机器人执行复杂装配任务的研究正逐渐成为前沿热点。assemble_box_with_phone_stand数据集由HuggingFace的LeRobot项目团队创建，旨在推动机器人学习在现实世界中的应用。该数据集聚焦于使用双手机器人完成盒子与手机支架的装配操作，其核心研究问题在于如何通过多模态感知数据（包括视觉、触觉及关节状态）来训练机器人执行精细的双手协同任务。尽管创建时间与具体研究人员信息尚未公开，但该数据集依托LeRobot开源框架，为机器人模仿学习与强化学习提供了宝贵的真实世界交互数据，有望促进机器人灵巧操作能力的提升。

当前挑战

该数据集致力于解决机器人双手灵巧装配这一领域难题，其挑战在于如何从高维度的多模态观测数据中有效提取特征，以指导机器人完成精确的抓取、对齐与组装动作。构建过程中的挑战尤为显著，涉及大规模真实机器人数据的采集与同步，需协调多个摄像头（如头部、腕部及触觉传感器）以30帧每秒的速率录制视频，并确保动作与状态数据的时序一致性。同时，数据标注与存储也面临技术难题，需将海量视频与结构化数据高效整合为Parquet格式，且保持数据块的合理划分以支持流式加载，这对计算资源与工程实现提出了较高要求。

常用场景

经典使用场景

在机器人操作与装配领域，assemble_box_with_phone_stand数据集以其丰富的多模态数据记录，为双臂协作机器人的精细操作任务提供了典型范例。该数据集聚焦于将手机支架组装入盒子的具体过程，通过高帧率视频流、末端执行器位姿及触觉传感信息，完整捕捉了双机械臂协同作业的动态序列。研究者可借此深入分析复杂装配任务中机器人的运动规划、抓取策略与环境交互机制，为模仿学习与强化学习算法提供高质量的示范数据。

解决学术问题

该数据集有效应对了机器人学中多模态感知与精细操作融合的学术挑战。通过同步记录视觉、位姿与触觉数据，它为解决高维状态空间下的动作表征学习、跨模态信息对齐以及长时程任务分解等关键问题提供了实证基础。其意义在于推动了数据驱动型机器人控制方法的发展，使得模型能够从真实世界交互中学习鲁棒且泛化的策略，从而降低对精确动力学模型或大量人工编程的依赖，加速智能机器人向实用化迈进。

衍生相关工作

围绕该数据集所蕴含的多模态机器人操作数据，已催生了一系列经典研究工作。例如，基于模仿学习的策略提取方法利用其动作与观测序列，训练端到端的控制网络；而结合强化学习的离线训练框架则以其为 replay buffer，优化策略在稀疏奖励下的探索效率。此外，在跨模态表征学习领域，该数据集常被用于验证视觉-触觉融合模型在操作状态估计中的有效性，推动了如触觉增强的视觉伺服等创新方向的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集