Xense/assemble_box_with_phone_stand0410_merged
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/Xense/assemble_box_with_phone_stand0410_merged
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- robotics
tags:
- LeRobot
configs:
- config_name: default
data_files:
- split: train
path: data/*/*.parquet
---
This dataset was created using [LeRobot](https://github.com/huggingface/lerobot).
## Dataset Description
- **Homepage:** [More Information Needed]
- **Paper:** [More Information Needed]
- **License:** apache-2.0
## Dataset Structure
[meta/info.json](meta/info.json):
```json
{
"codebase_version": "v3.0",
"robot_type": "bi_flexiv_rizon4_rt",
"total_episodes": 91,
"total_frames": 878334,
"total_tasks": 1,
"chunks_size": 1000,
"data_files_size_in_mb": 100,
"video_files_size_in_mb": 500,
"fps": 30,
"splits": {
"train": "0:91"
},
"data_path": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet",
"video_path": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4",
"features": {
"action": {
"dtype": "float32",
"names": [
"left_tcp.x",
"left_tcp.y",
"left_tcp.z",
"left_tcp.r1",
"left_tcp.r2",
"left_tcp.r3",
"left_tcp.r4",
"left_tcp.r5",
"left_tcp.r6",
"right_tcp.x",
"right_tcp.y",
"right_tcp.z",
"right_tcp.r1",
"right_tcp.r2",
"right_tcp.r3",
"right_tcp.r4",
"right_tcp.r5",
"right_tcp.r6",
"left_gripper.pos",
"right_gripper.pos"
],
"shape": [
20
]
},
"observation.state": {
"dtype": "float32",
"names": [
"left_tcp.x",
"left_tcp.y",
"left_tcp.z",
"left_tcp.r1",
"left_tcp.r2",
"left_tcp.r3",
"left_tcp.r4",
"left_tcp.r5",
"left_tcp.r6",
"right_tcp.x",
"right_tcp.y",
"right_tcp.z",
"right_tcp.r1",
"right_tcp.r2",
"right_tcp.r3",
"right_tcp.r4",
"right_tcp.r5",
"right_tcp.r6",
"left_gripper.pos",
"right_gripper.pos"
],
"shape": [
20
]
},
"observation.images.head": {
"dtype": "video",
"shape": [
480,
640,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.left_wrist": {
"dtype": "video",
"shape": [
480,
640,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.right_wrist": {
"dtype": "video",
"shape": [
480,
640,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.left_tactile_0": {
"dtype": "video",
"shape": [
400,
700,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 400,
"video.width": 700,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.left_tactile_1": {
"dtype": "video",
"shape": [
400,
700,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 400,
"video.width": 700,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.right_tactile_0": {
"dtype": "video",
"shape": [
400,
700,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 400,
"video.width": 700,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.right_tactile_1": {
"dtype": "video",
"shape": [
400,
700,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 400,
"video.width": 700,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"timestamp": {
"dtype": "float32",
"shape": [
1
],
"names": null
},
"frame_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"episode_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"task_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
}
}
}
```
## Citation
**BibTeX:**
```bibtex
[More Information Needed]
```
提供机构:
Xense
搜集汇总
数据集介绍

构建方式
在机器人操作领域,数据采集是技能学习的关键基石。本数据集基于LeRobot框架构建,依托双机械臂平台(bi_flexiv_rizon4_rt)进行精细操作任务的数据收集。通过遥操作方式驱动机器人执行“组装手机支架与盒子”这一单一任务,累计采集91个成功演示片段,总帧数达878334帧,数据以30帧/秒的稳定速率记录。原始数据以分块形式存储,动作和状态信息被保存为Parquet格式文件,视觉与触觉观测则采用H.264编码的MP4视频文件,确保了高效率的存储与读取。
使用方法
本数据集的设计初衷服务于模仿学习与强化学习研究,可直接通过LeRobot工具库进行高效加载与预处理。用户可根据元信息文件中的特征定义,将动作(action)和状态观测(observation.state)作为模型输入,并利用多视角图像与触觉数据构建视觉-触觉融合的感知策略。数据集已提供完整的训练集划分(0-91幕),结合LeRobot提供的标准API,可便捷地进行批量化数据读取、回放与可视化,进而用于端到端机器人技能模型的训练与评估。
背景与挑战
背景概述
在机器人操作领域,数据驱动的学习方法日益成为实现灵巧操作的关键路径,但高质量的示教数据稀缺始终是制约其发展的瓶颈。该数据集由Hugging Face LeRobot社区于近期创建,面向双臂协作机器人(Bi-Flexiv Rizon 4)的精细化装配任务,聚焦于将手机支架装入盒子的具体操作场景。数据集包含91个示范片段,总计近88万帧高频率(30 FPS)时序数据,记录了20维动作信号与状态信息,并融合了头顶、双腕及四路触觉传感器的多模态视觉输入。作为LeRobot生态系统的一部分,该数据集为模仿学习与强化学习研究提供了统一的标准化接口,有力推动了机器人精细操作任务的基准构建与算法验证。
当前挑战
该数据集所解决的领域核心挑战在于双臂协调装配任务的精确感知与控制,具体表现为:1)在毫米级装配精度要求下,如何从稀疏的触觉与视觉观测中鲁棒地学习末端执行器(TCP)的六维位姿调整策略;2)高维连续动作空间(20维)与多模态异构数据(8路视频流)的融合建模问题,对算法的时间同步与空间对齐能力构成严峻考验。在数据构建层面,挑战包括:3)大规模遥操作示教的一致性保障,需在91个不同初始条件下维持操作模式的标准化;4)多传感器(头戴、腕部相机及4路触觉阵列)的同步采集与标注,以及超过600MB音视频数据的预处理与高效编解码存储方案的实现。
常用场景
经典使用场景
在机器人操作与灵巧操控领域,assemble_box_with_phone_stand0410_merged数据集凭借其高精度多模态传感信息,成为研究双臂协同精密装配任务的典范资源。该数据集利用双Flexiv Rizon 4机器人平台,同步采集了头戴、左右腕部及四路触觉摄像头的视频流,同时记录了双臂末端执行器的六自由度位姿与夹爪开合度。研究者常将其用于训练模仿学习或强化学习模型,使机器人学会将手机支架与盒子进行装配,涵盖抓取、对齐、插入等连续动作序列。这一场景高度贴近真实工业产线中的精细操作,为算法泛化能力与鲁棒性的验证提供了标准化基准。
解决学术问题
该数据集核心解决了双臂机器人协同操作中高维状态空间与动作空间的建模难题。传统方法依赖手工设计的运动规划器,难以应对柔性装配中的接触力动态变化与位姿不确定性。通过提供包含触觉反馈与视觉观测的同步时序数据,该数据集推动了从感知到动作的端到端学习范式发展。研究者可据此探索策略迁移、多模态融合及技能分解等前沿问题,例如如何利用触觉图像预测接触状态,或通过跨视角视觉特征实现精确对齐。其意义在于缩小了仿真环境与真实物理世界间的差距,为构建通用操作智能体奠定了数据基础。
实际应用
在实际工业自动化场景中,该数据集可赋能柔性装配线的智能化升级。消费电子产品的零部件组装,如手机支架与塑料盒的扣合,通常依赖人工或专机完成,成本高且灵活性差。基于本数据集训练的机器人系统,能够快速适应不同型号产品的装配需求,通过视觉伺服与力控反馈实现自适应的夹持与插入操作。此外,在仓储物流领域,该技术可扩展至包裹分拣、工具使用等任务;在家庭服务机器人中,则可用于学习拧螺丝、插拔插头等精细动作。数据集的公开性使得中小企业无需昂贵的数据采集设备,即可复现和迭代高性能操作模型。
数据集最近研究
最新研究方向
在机器人操作与模仿学习的前沿探索中,精准装配任务一直被视为衡量灵巧操作能力的核心基准。该数据集以双柔性机器人(bi_flexiv_rizon4_rt)为平台,记录了将手机支架部件进行组装的全过程,共包含91个演示回合与逾87万帧数据,其独特之处在于融合了头戴式、双腕部视觉以及四路触觉图像等多模态感知通道,为研究机器人在高精度接触操作中的视触融合策略提供了宝贵素材。特别是在具身智能浪潮推动下,该数据集支持基于LeRobot框架的端到端模仿学习,关注如何在有限示教下泛化至不同初始条件,其蕴含的双手协同力控与微小零件对准信息,正成为解锁柔顺装配自动化瓶颈的关键突破口。
以上内容由遇见数据集搜集并总结生成



