eunjuri/filled_can_img_depth

Name: eunjuri/filled_can_img_depth
Creator: eunjuri
Published: 2026-04-25 06:57:00
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/eunjuri/filled_can_img_depth

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot创建，与机器人技术相关，特别是Unitree_G1_Inspire机器人。数据集包含82个片段，总计37,941帧和164个视频。数据包括观察（状态、语言标记、图像、深度）、动作、时间戳和帧索引。观察状态和动作各有26个维度，详细描述了机器人的各个关节状态。此外，还包括语言标记、注意力掩码以及来自左侧高摄像头的视频数据。数据以parquet文件格式存储，视频为mp4格式。

This dataset was created using LeRobot and is related to robotics, specifically the Unitree_G1_Inspire robot. It contains 82 episodes with a total of 37,941 frames and 164 videos. The data includes observations (state, language tokens, images, depths), actions, timestamps, and frame indices. The observation state and action each have 26 dimensions, detailing the state of various robot joints. Additionally, it includes language tokens, attention masks, and video data from a left high camera. The data is stored in parquet files and videos are in mp4 format.

提供机构：

eunjuri

搜集汇总

数据集介绍

构建方式

filled_can_img_depth数据集依托于LeRobot框架构建，专注于机器人操控任务的模仿学习。数据集包含82个完整操作回合，共计37,941帧图像与动作序列，以每秒30帧的高频率进行采样。在采集过程中，数据通过Unitree_G1_Inspire机器人平台的高清摄像头与深度传感器同步记录，分别捕捉左上方视角的RGB图像（cam_left_high）与对应的深度图（depths.cam_left_high），两者分辨率均为848×480像素。同时，机器人的26维关节状态向量（涵盖肩、肘、腕及手指各自由度）与对应的动作指令被精确记录，每个操作回合以Parquet格式存储于独立的文件中，而视频片段则以MP4格式保存，确保了数据的高效存取与结构化组织。

使用方法

该数据集可直接通过LeRobot库进行加载与迭代，适用于模仿学习、行为克隆及多模态表征学习等研究领域。使用时，研究人员可调用LeRobot的数据集API，按需获取每一帧的图像、深度图、机器人状态及动作标签。数据集的视频与Parquet文件采用分块组织方式，便于大规模分布式训练。对于需要语言条件控制的场景，可提取observation.language.tokens字段结合注意力掩码进行嵌入。默认提供了82个回合的完整训练拆分（split:'train'），研究者亦可按episode_index灵活划分训练与验证集。推荐配合PyTorch或JAX框架，结合数据增强与归一化策略，训练从感知到动作的端到端映射模型。

背景与挑战

背景概述

该数据集名为“filled_can_img_depth”，由LeRobot社区基于Hugging Face平台创建，旨在为机器人操作任务提供高质量的视觉-动作序列数据。数据集聚焦于Unitree G1灵巧手平台的精细化操作场景，通过左右手26个关节角度、多视角图像及深度信息，记录了82个演示片段，涵盖约38000帧的高频（30fps）运动数据。其核心研究问题在于如何利用多模态感知信息（如高分辨率RGB相机与深度图）驱动仿人机器人完成灵巧操作任务，例如抓取或装配等工作。作为开源机器人学习领域的代表性数据集，它填补了高自由度灵巧手在复杂环境下的演示学习资源空白，为模仿学习、视觉运动策略及域迁移研究提供了标准化基准，显著促进了自动化操作技术的泛化能力提升。

当前挑战

当前数据集面临的核心挑战包括：1）灵巧操作中的视觉-动作对应难题，即如何将高维图像与深度信息实时映射至关节级控制指令，避免高频反馈下的策略失稳；2）多模态数据融合的鲁棒性问题，左臂与右臂26个自由度的高度耦合导致状态空间爆炸，传统模型难以在有限演示（82条轨迹）中泛化至未见任务；3）构建流程中需解决物理传感器标定偏差，左右摄像头（848×480分辨率）与深度图的时空对齐误差可能引发控制精度下降，同时机械臂的运动死角与自遮挡进一步增加数据清洗复杂度；4）长序列依赖问题，单段轨迹仅含30fps的细粒度动作，但关节动态特性要求模型捕获跨帧时序关联，对序列建模架构提出严苛需求。

常用场景

经典使用场景

在机器人学习与具身智能的交叉领域，filled_can_img_depth数据集为模仿学习与强化学习算法提供了高保真的多模态训练素材。该数据集收录了82个完整的操作回合，涵盖近3.8万帧由Unitree G1人形机器人搭载灵巧手执行任务时采集的观测数据，包括26维关节状态、深度图与RGB图像序列。研究者常利用这些数据训练端到端的策略网络，例如通过行为克隆或扩散策略模型，使机器人学会将视觉输入直接映射为连续动作指令，从而复现填装罐体的精细操作能力。

解决学术问题

该数据集核心解决了从仿真到现实迁移中的低效数据收集难题。传统机器人编程依赖手工编码与精确物理建模，难以处理真实世界中的非结构化场景。filled_can_img_depth通过提供标准化的真实操作轨迹、深度信息与语言指令令牌，使学术界能够系统研究多模态感知融合、时序动作生成以及人形机器人灵巧操作中的泛化瓶颈。其意义在于推动基于数据驱动的机器人学习方法从单一感知模态向视觉-深度-状态联合建模演进，极大地降低了复杂操作技能学习的数据门槛。

实际应用

在实际产业部署中，该数据集可服务于仓储分拣与精密装配等自动化产线场景。基于其记录的深度图与关节运动序列，工程师能够训练机器人适应不同规格容器与物料堆叠状态下的自适应抓取策略。例如，借助数据中的左右高视角立体视觉与深度信息，可构建鲁棒的3D目标检测与抓取姿态估计模块，最终实现人形机器人在动态环境中对罐装物体进行稳定拾取与定向填装，从而减少人工干预并提升产线柔性。

数据集最近研究