Xense/assemble_box_with_phone_stand0410_merged_fixed

Name: Xense/assemble_box_with_phone_stand0410_merged_fixed
Creator: Xense
Published: 2026-04-30 09:52:47
License: 暂无描述

Hugging Face2026-04-30 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/Xense/assemble_box_with_phone_stand0410_merged_fixed

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用[LeRobot](https://github.com/huggingface/lerobot)创建，涉及机器人学领域，特别是关于bi-flexiv rizon4 rt机器人的操作。数据集包含111个episodes，1,061,314帧，以及1个任务。数据以parquet文件格式存储，包括动作数据（如左右机械臂的TCP位置和姿态、左右夹爪位置）、观察数据（如状态信息和来自头部、左右手腕及触觉传感器的图像数据）以及时间戳、帧索引等元数据。数据文件总大小为100MB，视频文件总大小为500MB，帧率为30fps。

This dataset was created using [LeRobot](https://github.com/huggingface/lerobot) and pertains to the field of robotics, specifically involving operations of a bi-flexiv rizon4 rt robot. It comprises 111 episodes, 1,061,314 frames, and 1 task. The data is stored in parquet files, including action data (such as TCP positions and orientations of left and right arms, left and right gripper positions), observation data (such as state information and images from head, left wrist, right wrist, and tactile sensors), and metadata like timestamps and frame indices. The total size of data files is 100MB, and video files total 500MB, with a frame rate of 30fps.

提供机构：

Xense

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架构建，旨在复现箱体与手机支架的装配作业任务。数据采集依托双机械臂系统（bi_flexiv_rizon4_rt），通过遥操作方式记录111个演示回合，累计获得1061314帧数据。数据以parquet格式存储，按1000帧的粒度分块组织，同时将视觉观测以H.264编码的MP4视频文件独立保存，实现高效存取。

特点

本数据集涵盖20维动作与状态空间，包括左右臂末端位姿（6维）及夹爪位置（1维），并整合了多模态观测信息。除头部、左右腕部RGB摄像头外，还创新性地引入了左右各两组触觉传感器图像（400×700像素），为接触感知提供丰富信号。所有观测以30帧/秒的固定频率同步记录，保证时间对齐精度。

使用方法

数据集采用HuggingFace LeRobot规范格式，可通过from lerobot import LeRobotDataset接口直接加载。训练集划分包含全部111个回合，数据特征已预定义张量名称与形状，支持直接用于模仿学习或强化学习的训练流程。视频数据可基于data_path与video_path的索引模式片段化读取，适应大规模离线训练需求。

背景与挑战

背景概述

该数据集由LeRobot框架创建，聚焦于双机械臂（bi_flexiv_rizon4_rt）协作完成“组装带手机支架的盒子”这一精细操作任务。数据采集于2024年，包含111个演示轨迹、超过106万帧的同步多模态感知数据，涵盖头部与双腕的RGB视频以及四路触觉传感器信号。其核心研究问题在于如何通过模仿学习使机器人掌握非刚性物体装配与精密对接的技能，对推动具身智能领域从单一操作向双臂协同、触觉感知融合的方向发展具有重要参考价值。

当前挑战

领域层面，双臂协作涉及复杂的运动学约束与力位混合控制，尤其在盒体与手机支架的微小卡扣装配中，视觉遮挡与接触状态突变极易导致失败。现有强化学习方法难以泛化至该类具有接触交互的非结构化任务。构建层面，数据采集需同时协调两台七自由度机械臂与软体夹爪，触觉传感器在500MB视频中引入的高频噪声与时间同步误差为预处理带来挑战，且111段演示不足以覆盖所有可能的装配失败模式，需依赖数据增强与仿真迁移弥补稀疏性。

常用场景

经典使用场景

该数据集聚焦于双臂机器人协作完成盒子与手机支架的装配任务，蕴含了超过百万帧的高频视觉与触觉数据。经典使用场景涵盖模仿学习与行为克隆，研究基于轨迹规划的精细操作，尤其适用于训练端到端的控制策略。利用头部及左右腕部相机捕捉的640×480分辨率视觉流，结合左右手各两路触觉传感器的细腻反馈，可构建多模态感知的决策模型。数据集提供双机械臂的TCP六维位姿与夹爪开合度作为动作与状态空间，为双臂协同的精密装配研究提供了标准化的训练与评估平台。

衍生相关工作

基于该数据集衍生的经典工作包括：利用Action Chunking with Transformers（ACT）进行序列建模的动作预测，通过扩散策略（Diffusion Policy）提升操作轨迹的平滑度与鲁棒性。双机械臂的触觉与视觉融合促使了多模态对比学习框架的提出，用于预训练联合表示模型。同步录制的多视角视频与力觉数据也推动了基于Transformer的无模型强化学习方法，以及利用动作分块与示教轨迹离散化的可扩展策略蒸馏技术，为双臂操作领域开辟了新的研究范式。

数据集最近研究