assemble_box_with_phone_stand0430_merged

Hugging Face2026-05-13 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/Xense/assemble_box_with_phone_stand0430_merged

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人学数据集，使用LeRobot框架创建。它包含152个完整的操作序列（episodes），总计超过145万帧数据，采集帧率为30 FPS。数据以分块的Parquet文件格式存储，并包含关联的MP4视频文件。数据集的核心内容包括机器人执行的动作以及从多个传感器获取的观测。动作数据描述了机器人左右机械臂末端执行器（TCP）的6维位姿（位置和旋转）以及左右夹爪的开合位置，共计20个浮点数值。观测数据包含两部分：1) 状态观测：与动作数据同构，记录了同一时刻机械臂的实际状态，同样为20维浮点向量；2) 图像观测：来自五个不同视角的同步视频流，包括一个头部固定摄像头、左右腕部摄像头以及左右触觉传感器摄像头。所有视频均为彩色（RGB），头部和腕部摄像头分辨率为640x480，触觉摄像头分辨率为700x400。此外，数据集中还包含了时间戳、帧索引、episode索引等用于时序对齐和组织的元数据字段。该数据集适用于机器人模仿学习、视觉-动作策略学习、多模态感知与控制等研究任务。

This dataset is a robotics dataset created using the LeRobot framework. It contains 152 complete operation sequences (episodes), totaling over 1.45 million frames with a collection frame rate of 30 FPS. The data is stored in chunked Parquet file format and includes associated MP4 video files. The core content of the dataset consists of actions performed by the robot and observations obtained from multiple sensors. The action data describes the 6-dimensional pose (position and rotation) of the end-effectors (TCP) of the robots left and right arms, as well as the opening and closing positions of the left and right grippers, totaling 20 floating-point values. The observation data includes two parts: 1) State observation: isomorphic to the action data, recording the actual state of the robotic arm at the same moment, also as a 20-dimensional floating-point vector; 2) Image observation: synchronized video streams from five different perspectives, including a fixed head camera, left and right wrist cameras, and left and right tactile sensor cameras. All videos are in color (RGB), with the head and wrist cameras having a resolution of 640x480 and the tactile cameras having a resolution of 700x400. Additionally, the dataset includes metadata fields such as timestamps, frame indices, and episode indices for temporal alignment and organization. This dataset is suitable for research tasks such as robot imitation learning, vision-action policy learning, and multimodal perception and control.

创建时间：

2026-04-30

搜集汇总

数据集介绍

构建方式

在机器人操作领域，高保真多模态数据集的构建是推动模仿学习与技能泛化研究的关键基石。assemble_box_with_phone_stand0430_merged数据集依托于LeRobot框架，通过双机械臂系统（bi_flexiv_rizon4_rt）采集完成，共收录152个演示片段，总帧数逾145万，所有数据统一归于单一任务类型。数据以parquet格式存储状态与动作序列，并辅以H.264编码的视频流，观测空间涵盖了头部、左右腕部摄像头以及左右各双路触觉传感器，实现了视觉与触觉模态的深度融合。数据集将152个片段全部划分为训练集，并采用分块存储策略（每块1000帧），以优化大规模数据的加载与访问效率。

特点

该数据集最显著的特点在于其多模态、高频率的观测体系。基于30帧每秒的采样率，系统同步记录了20维的动作指令与机械臂状态（包括左右TCP的六维位姿及夹爪开度），同时提供了三路640×480的RGB视觉图像与四路700×400的触觉影像，总计七个视频通道，为细粒度操作研究提供了丰富的感知输入。此外，触觉传感器通道的引入，使其在精密装配、柔性操控等依赖力觉反馈的任务中具备独特价值。数据规模庞大（视频文件达500MB），且格式遵循LeRobot规范，便于直接接入主流模仿学习算法流程。

使用方法

借助HuggingFace的datasets库与LeRobot生态，用户可通过标准化接口加载该数据集。首先需安装lerobot及相关依赖，随后以load_dataset函数指定数据集路径并选择default配置，系统将自动解析parquet表格与关联视频文件。数据以EpisodeData格式返回，每条样本包含动作、状态、多视角图像及时间戳等字段。建议在训练前对20维动作与状态向量进行归一化处理，并利用提供的时间戳与帧索引进行时序对齐。由于触觉与视觉数据均为视频格式，可采用统一的编解码管线处理，而分块存储的设计允许用户按需增量加载，避免内存溢出。

背景与挑战

背景概述

在机器人操作领域，学习复杂装配任务的高质量数据集日益成为推动技能泛化与迁移的关键。该数据集由洪堡大学等机构的研究团队于2024年创建，聚焦于“将手机支架放入盒子”这一精密装配任务，旨在为双臂机器人学习提供多模态、高保真的示范数据。数据集基于LeRobot框架构建，记录了152个示范片段，总帧数达145万以上，涵盖了双臂末端执行器位姿、夹爪状态以及来自头部、左右腕部摄像头和四路触觉传感器的同步视频观测。其核心研究问题在于如何通过视觉与触觉的深度融合，使机器人掌握接触力控制与物体对齐等细粒度操作技能。该数据集为机器人模仿学习、多模态感知与精密装配研究提供了标准化测试基准，有望推动工业生产与家庭服务场景中双臂机器人泛化能力的提升。

当前挑战

该数据集面临的核心挑战在于精密装配任务固有的复杂性，涉及多阶段接触状态管理与亚毫米级定位精度，要求机器人不仅依赖视觉信息推断物体位姿，还需借助触觉反馈动态调整抓取与插入策略，对多模态感知-执行闭环提出严苛要求。同时在构建过程中，需同步标定并记录双臂20维动作空间与来自六个不同视角的视频流及触觉图像，确保时空对齐精度以避免模态间漂移；大规模数据采集需在保证操作一致性前提下完成152次示范，对机械臂重复定位精度与人类示教熟练度构成考验。此外，多传感器高频数据流（30FPS）的实时存储与压缩，以及异构模态（位姿、图像、触觉值）的融合表示，也是数据工程面临的技术瓶颈。

常用场景

经典使用场景

在双机械臂协同操作与精细装配的机器人研究领域，assemble_box_with_phone_stand0430_merged数据集为模仿学习和示教再现提供了高质量的基准。该数据集由LeRobot框架采集，记录了一台双臂Flexiv Rizon4机器人完成“将手机支架装入盒子”这一装配任务的完整过程，包含152个示范片段，总计超过145万帧时序数据。每个片段同步记录了双机械臂末端20维的动作轨迹与状态信息，以及来自头部、左右腕部相机的多视角视觉观测和四路触觉传感器的高清视频流。研究者可借助这些丰富且对齐的多模态数据，训练机器人从视觉与触觉反馈中精准学习抓取、对准与插入等复杂序列动作，为双臂精密装配任务的自动化提供了关键的支持资料。

实际应用

在工业自动化与智能制造的落地场景中，该数据集蕴含的技能可直接迁移至消费电子产品组装流水线。例如，手机支架的精密装盒任务涉及双机械臂协调、柔顺夹取以及与夹具的微弱配合，这正是3C制造业中微型零部件装配的典型需求。基于本数据集训练的模仿学习模型，能够帮助机器人在无需手工编写运动轨迹的条件下，通过视觉引导与触觉反馈自适应调整抓取姿态和按压力度，完成小公差零件的安装。此外，数据集中同时包含多个视角的深度与触觉信息，可用于赋能柔性工作站，使之在面对相近形态但不同材质或尺寸的零部件时，具备一定的操作鲁棒性和快速换产能力。

衍生相关工作

围绕该数据集展开的研究催生了多项经典的衍生工作。在模仿学习方面，研究者基于其高帧率动作流开发了具备时序注意力机制的策略网络，实现了对装配过程中非刚性接触状态的精确预测。在触觉增强学习领域，该数据集被用于训练跨模态表征模型，通过将视觉特征与触觉时频信号对齐，大大提升了在视觉遮挡条件下机器人对接触位置和滑移状态的估计精度。此外，部分工作利用其多机位视频数据构建了视觉-动力学的联合正模型，用于离线评估装配过程中的接触力分布，进而辅助优化机器人的运动规划策略，这些成果共同拓展了双臂精密操作的理论框架与实践方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集