eunjuri/filled_bottle_img_depth
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/eunjuri/filled_bottle_img_depth
下载链接
链接失效反馈官方服务:
资源简介:
该数据集使用LeRobot创建,包含Unitree_G1_Inspire机器人的动作和观察数据。数据集结构包括83个 episodes,共28890帧,帧率为30 fps。数据内容包括机器人的状态信息(如左右肩、肘、腕等关节的角度)、动作、语言标记、图像(左摄像头高分辨率)、深度图以及时间戳等信息。数据以parquet格式存储,并包含视频数据。
This dataset was created using LeRobot and contains action and observation data from the Unitree_G1_Inspire robot. The dataset structure includes 83 episodes with a total of 28890 frames at 30 fps. The data includes the robots state information (such as angles of left and right shoulder, elbow, wrist, etc.), actions, language tokens, images (left camera high resolution), depth maps, and timestamps. The data is stored in parquet format and includes video data.
提供机构:
eunjuri
搜集汇总
数据集介绍

构建方式
在机器人操作任务的研究中,精准的视觉与状态信息是模仿学习算法成功的关键。filled_bottle_img_depth数据集正是为满足此类需求而构建,它基于LeRobot框架,通过Unitree_G1_Inspire机器人平台采集了83个演示回合,总计28890帧数据,专注于单一的装满瓶子任务。数据以parquet格式存储,每帧包含26维的双臂关节角度观测与对应动作,同时辅以两个视角的RGB图像与深度图视频流,以及语言令牌和注意力掩码,实现了多模态信息的同步记录。数据集按1000帧分块组织,便于高效加载与处理。
特点
该数据集的核心特点在于其多模态融合性与结构一致性。观测空间不仅包含完整的双臂26维关节状态(从肩部到手指精细关节),还提供了高分辨率(848×480)的彩色图像与深度视频,且深度图以伪彩形式编码,而非稀疏的距离矩阵,这为基于视觉的深度估计与操作学习提供了丰富信息。所有数据以30FPS的稳定帧率采集,动作与状态维度严格对齐,便于建立映射关系。此外,语言指令以预训练令牌序列形式嵌入,支持跨模态任务理解,而完整的元信息(如视频编码为AV1)确保了数据的高效压缩与回放质量。
使用方法
使用本数据集时,需借助LeRobot库进行数据加载与解析。用户可通过HuggingFace Datasets接口读取parquet文件,按训练与验证划分(默认全部83回合用于训练)获取结构化样本。每个样本包含状态、动作、图像与深度视频帧,以及对应时间戳和索引。典型应用流程包括:提取observation.state和action序列以训练模仿学习策略;将observation.images和observation.depths作为视觉输入,结合语言令牌实现条件化策略学习。建议将视频帧按时间轴展开为掩码张量,配合attention_mask处理变长指令。最后,可使用LeRobot内置的可视化工具回放回合,验证策略复现效果。
背景与挑战
背景概述
该数据集名为filled_bottle_img_depth,创建于基于LeRobot框架的机器人操作研究背景下,由Hugging Face社区及相关机器人研究机构共同构建。数据集聚焦于Unitree_G1_Inspire机器人执行特定任务时的状态与动作记录,包含83个episode、28890帧数据,涉及26维关节状态与动作空间,以及左右高分辨率RGB与深度图像信息。其核心研究问题在于为模仿学习或强化学习提供多模态、高精度的机器人操作演示数据,涵盖从状态感知到动作执行的完整序列。该数据集的出现填补了开源社区中针对灵巧手类人机器人精细操作任务的标准化数据空白,推动了机器人学习领域中数据驱动方法的发展,尤其在物体抓取与操作任务中具有重要参考价值。
当前挑战
该数据集所解决的领域挑战在于机器人精细操作任务中状态与动作的高维耦合问题,以及多模态感知数据(如深度图与RGB图像)的融合与对齐难题。构建过程中面临的挑战包括:1)灵巧手(Inspire Hand)具有多达12个自由度的复杂关节控制,确保动作采集精度与传感器同步成为关键;2)深度图像与RGB图像在时间戳、空间分辨率上的对齐需要严格标定,否则将导致学习模型性能退化;3)仅有83个episode的有限数据量,对泛化能力提出更高要求,需通过有效的数据增强或预训练策略来弥补;4)任务单一性使得数据集难以直接迁移至其他操作场景,需结合迁移学习方法拓展应用边界。
常用场景
经典使用场景
在具身智能与机器人学习领域,filled_bottle_img_depth数据集为模仿学习与强化学习提供了高保真的多模态训练资源。该数据集包含Unitree G1人形机器人执行装填瓶子任务的83个完整演示片段,同步记录了26维关节角度状态、动作指令、左侧高位摄像头RGB图像以及对应深度图,帧率达30Hz。其经典使用场景聚焦于视觉运动策略的学习,研究者可借助图像与深度信息的联合输入,训练机器人掌握精细的抓取与放置操作,尤其适合验证端到端模仿学习算法在复杂灵巧操作任务中的泛化能力。
解决学术问题
该数据集系统性地解决了人形机器人灵巧操作研究中数据稀缺与状态观测维度不匹配的学术难题。通过提供完整的机器人本体状态与视觉深度对齐数据,它使得研究者能够探索多模态融合如何提升策略对物体姿态变化的鲁棒性,从而突破传统方法在非结构化环境中成功率低的瓶颈。其意义在于为对比不同架构(如扩散策略、Transformer-based行为克隆)在细粒度操控任务上的表现提供了标准化基准,推动了从单纯依赖关节角度向结合深度感知的闭环控制范式的学术演进。
衍生相关工作
该数据集衍生了一系列标志性研究工作,其中最具代表性的是基于扩散策略的灵巧操作迁移学习框架。研究者利用其多视角深度图像与本体运动同步记录,开发了跨物体形状的泛化预训练模型,证明先验知识可通过微调少数演示即可适应新任务。此外,相关工作还催生了结合逆运动学与视觉特征的混合专家系统,以及针对人形机器人双手协同操作的奖励函数设计方法,推动了LeRobot社区在统一数据格式与基准测试协议方面的标准化进程。
以上内容由遇见数据集搜集并总结生成



