earbud_case_insertion_teleop_0515

Hugging Face2026-05-16 更新2026-05-17 收录

下载链接：

https://huggingface.co/datasets/Xense/earbud_case_insertion_teleop_0515

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot工具创建，是一个专为双臂机器人（型号bi_flexiv_rizon4_rt）设计的机器人学习数据集。它包含90个episodes，总计152,884帧数据，帧率为30 fps，以每块1000帧的形式组织，仅提供训练集（episode 0到90）。数据集涵盖动作指令、状态观测和多视角视觉观测：动作和状态观测均为20维浮点向量，描述左右机械臂末端执行器（TCP）的6维位姿（位置和旋转）以及左右夹爪的位置；视觉观测包括来自头部摄像头、左右腕部摄像头以及左右触觉摄像头（各两个）的视频流，分辨率分别为480x640（头部和腕部）和400x700（触觉），均为RGB三通道格式，使用H.264编码。此外，还包括时间戳、帧索引、episode索引等元数据字段。数据集文件包括约100 MB的.parquet格式数据文件和约500 MB的.mp4格式视频文件，适用于机器人模仿学习、强化学习或行为克隆等任务，尤其专注于双臂协调操作与触觉感知。许可证为Apache-2.0。

This dataset is created using the LeRobot tool and is a robot learning dataset specifically designed for a dual-arm robot (model bi_flexiv_rizon4_rt). It contains 90 episodes, totaling 152,884 frames with a frame rate of 30 fps, organized in chunks of 1000 frames each, and only provides a training set (episodes 0 to 90). The dataset includes action commands, state observations, and multi-view visual observations: actions and state observations are both 20-dimensional floating-point vectors, describing the 6-dimensional pose (position and rotation) of the left and right robot arm end-effectors (TCP) and the positions of the left and right grippers; visual observations include video streams from a head camera, left and right wrist cameras, and left and right tactile cameras (two each), with resolutions of 480x640 (head and wrist) and 400x700 (tactile), all in RGB three-channel format and encoded with H.264. Additionally, metadata fields such as timestamps, frame indices, and episode indices are included. The dataset files consist of approximately 100 MB of .parquet format data files and approximately 500 MB of .mp4 format video files. It is suitable for tasks such as robot imitation learning, reinforcement learning, or behavior cloning, with a particular focus on dual-arm coordination and tactile perception. The license is Apache-2.0.

创建时间：

2026-05-15

原始信息汇总

数据集概述：earbud_case_insertion_teleop_0515

基本信息

许可证：Apache-2.0
任务类别：机器人学（Robotics）
标签：LeRobot
创建工具：LeRobot

数据集规模

总片段数：90
总帧数：152,884
总任务数：1
帧率（FPS）：30
数据文件大小：100 MB
视频文件大小：500 MB
分块大小：1,000

数据集划分

所有90个片段均用于训练（train: "0:90"）。

机器人类型

机器人：bi_flexiv_rizon4_rt（双臂Flexiv Rizon 4机器人）

数据特征

动作（Action）

数据类型：float32
维度：20
描述：包含左右臂的TCP位置（x, y, z）和旋转量（r1-r6），以及左右夹爪位置（pos）。

观察状态（Observation.State）

数据类型：float32
维度：20
描述：与动作特征相同的20维状态信息。

观察图像（Observation.Images）

共有7个摄像头视角，均为H.264编码的彩色视频（非深度图），帧率30 FPS：

图像视角	分辨率	通道数
头部摄像头（head）	480×640	3 (RGB)
左腕摄像头（left_wrist）	480×640	3 (RGB)
右腕摄像头（right_wrist）	480×640	3 (RGB)
左侧触觉传感器0（left_tactile_0）	400×700	3 (RGB)
左侧触觉传感器1（left_tactile_1）	400×700	3 (RGB)
右侧触觉传感器0（right_tactile_0）	400×700	3 (RGB)
右侧触觉传感器1（right_tactile_1）	400×700	3 (RGB)

其他特征

特征名	数据类型	形状	描述
timestamp	float32	[1]	时间戳
frame_index	int64	[1]	帧索引
episode_index	int64	[1]	片段索引
index	int64	[1]	索引
task_index	int64	[1]	任务索引

任务描述

该数据集包含一个具体的机器人遥操作任务，涉及将耳塞盒（earbud case）插入到相应位置的操作。

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架构建，旨在记录双机械臂插入耳机仓的遥操作任务。数据采集采用双臂Flexiv Rizon 4机器人，通过人工遥操作执行90个完整回合（episodes），总计采集152,884帧数据，涵盖单一任务类型。数据以每秒30帧的帧率录制，并存储为分块parquet文件和H.264编码视频，每个数据块包含1000帧，便于高效加载与管理。

特点

数据集的核心特点在于多模态感知信息的深度融合，不仅包含20维关节动作与状态信息（如TCP位姿与夹爪位置），还集成了头部与左右腕部摄像头提供的640×480彩色图像，以及四路触觉传感器的400×700视觉信号。这种设计使机器人能够同步学习运动控制与触觉反馈，适用于精细操作任务的模仿学习研究。总计多达8种图像观测通道为多视角融合策略提供了丰富数据基础。

使用方法

数据集以LeRobot标准格式组织，可通过该框架直接加载。数据被划分为训练集（全部90回合），支持通过索引、回合编号或时间戳检索帧。用户可选用分块parquet文件获取结构化的状态与动作序列，或通过视频文件提取视觉观测。建议采用模仿学习或行为克隆算法，结合双臂对称性与触觉输入进行模型训练，以复现耳机仓插入的精准操作。

背景与挑战

背景概述

在机器人操作领域，精准且鲁棒的物体插入任务一直是具身智能研究中的核心挑战之一，尤其在微小零件装配和日常用品操作中具有广泛的应用前景。2024年，由Hugging Face的LeRobot社区构建并发布的耳塞盒插入遥操作数据集（earbud_case_insertion_teleop_0515），聚焦于双机械臂协同完成耳塞盒插入这一精细操作问题。该数据集基于两台Flexiv Rizon 4机械臂（型号为bi_flexiv_rizon4_rt），通过遥操作方式采集了90个演示回合，共计约15.3万帧数据，涵盖头戴、左右腕部及四个触觉传感器等多视角视觉与触觉信息，为学习复杂接触操作行为提供了高质量的多模态训练资源。作为LeRobot生态系统的组成部分，该数据集旨在推动机器人学习领域从仿真模拟向真实世界应用转化，为后续的模仿学习与强化学习研究奠定了重要基础。

当前挑战

该数据集所解决的领域问题聚焦于耳塞盒插入这一典型精细操作任务。其核心挑战在于：一、高精度刚体装配中，机械臂需要同时协调位置控制与力/触觉反馈，传统运动规划方法难以应对微小误差导致的卡滞或损坏；二、遥操作采集过程中，操作者的演示一致性受限于人机交互延迟和视觉反馈质量，约100MB的原始数据与500MB的视频文件规模对数据标注与清洗提出了更高要求；三、多模态信息融合方面，头戴与腕部摄像头（480×640分辨率）捕获的视觉流以及四个触觉传感器（400×700分辨率）记录的力觉信号需要在30fps采样率下实现时空同步，为模型架构设计带来复杂度；四、仅含单一任务的90个回合数据量相对有限，对算法在少样本场景下的泛化能力构成严峻考验。

常用场景

经典使用场景

在双机器人协同操作与精细化装配的研究领域，bot_dataset_teleop_0515数据集为模仿学习与遥操作策略提供了关键支撑。该数据集聚焦于耳机仓插入这一典型精密装配任务，利用双臂Flexiv Rizon4机器人平台，通过遥操作采集了90个高质量演示片段，总帧数逾15万，涵盖20维动作空间（包括双臂末端位姿与夹爪状态）及多视角视觉信息（头部、腕部及四路触觉图像）。研究者常将其用于训练基于视觉-触觉融合的机器人操作策略，例如通过行为克隆或扩散策略学习从多模态观测到精细控制指令的映射，从而在复杂接触环境下实现毫米级精度的插入操作。

实际应用

在实际工业及消费电子制造场景中，该数据集展现出了广阔的应用前景。它可被直接用于训练能够自主完成耳机仓对齐、插入与检测的机器人操作系统，替代传统的人工装配或刚性自动化产线。借助遥操作采集的高保真演示，学习得到的策略能适应来料位置偏差与几何形变，实现柔性化生产。此外，该数据集支持部署于双臂协作机器人工作站，在狭小空间内协同完成电子元器件的精密安装、物料分拣及质量检验，显著提升装配良率与生产效率。对于服务机器人领域，类似技术还可迁移至物体执取、插入式组装等家庭或医疗场景，赋予机器人感知与操作的双重鲁棒性。

衍生相关工作

围绕该数据集衍生出多项具有代表性的研究成果，例如基于扩散策略（Diffusion Policy）的精密操作框架，利用数据集的时序动作序列与多视角图像学习生成式操作策略，实现了对复杂插入轨迹的平滑建模。此外，触觉-视觉融合模仿学习方法（如H-InFusion架构）借助同步触觉图像与机器人状态序列，探索了触觉与视觉在接触任务中的自适应权重分配机制。更有工作将其与对比学习范式结合，利用数据集中的高维状态特征训练机器人本体表征，增强策略在初始配置变化时的泛化能力。这些研究充分验证了该数据集在推动具身智能体复杂技能习得方面的核心价值。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集