eunjuri/empty_can_img_depth

Name: eunjuri/empty_can_img_depth
Creator: eunjuri
Published: 2026-04-25 07:23:34
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/eunjuri/empty_can_img_depth

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot框架创建，涉及Unitree_G1_Inspire机器人的数据。数据集包含多种特征，如状态观察、动作、语言标记、图像、深度和时间戳。数据集结构详细，包括元数据如集数、帧数、任务数、视频数以及技术细节如帧率和数据路径。

This dataset was created using the LeRobot framework and involves data from a Unitree_G1_Inspire robot. The dataset includes various features such as state observations, actions, language tokens, images, depths, and timestamps. The dataset structure is well-documented with metadata including the number of episodes, frames, tasks, videos, and technical details like FPS and data paths.

提供机构：

eunjuri

搜集汇总

数据集介绍

构建方式

在机器人操作技能学习领域，数据驱动的模仿学习方法日益受到关注。empty_can_img_depth数据集正是为此而构建，旨在提供一个包含深度信息的机器人操控数据集。该数据集基于LeRobot框架生成，记录了Unitree G1 Inspire型机器人执行单一任务的完整轨迹。数据采集以30帧每秒的速率进行，共包含82个片段、30756帧。每个片段中的结构以Parquet文件格式存储机器人本体状态与动作指令，而视觉信息则通过AV1编码的视频文件保存，涵盖来自左侧高位摄像头的RGB图像与对应的深度图。此外，数据集还提供了语言指令的令牌序列及其注意力掩码，便于条件模仿学习任务的开展。

使用方法

借助LeRobot库，用户能够便捷地加载与处理该数据集。数据路径遵循chunk与episode的分层结构，Parquet文件存储了每帧的数值型特征，而视频文件则保存了视觉观测序列。推荐的交互方式包括通过LeRobot的Dataset类构建数据加载器，按索引或片段遍历数据，并从中提取状态、动作、图像与深度信息以用于策略学习。训练时通常将全部82个片段作为训练集，利用差分驱动模型如扩散策略或动作分块变换器进行离线模仿学习。实验者可结合语言令牌实现条件控制，或在深度图上施加几何约束，以提升机器人在未知场景中的泛化能力。

背景与挑战

背景概述

empty_can_img_depth数据集是围绕Unitree G1 Inspire人形机器人平台构建的机器人操作数据集，于近期在Hugging Face平台发布，隶属于LeRobot生态系统。该数据集由机器人研究社区贡献，旨在通过记录机器人执行空罐抓取任务时的多模态感知与运动数据，推动人形机器人灵巧操作研究。数据集包含82个episode、超过3万帧高保真样本，同步采集了左右手部26维关节状态、动作指令、高分辨率RGB图像与深度图，以及语言令牌序列。通过将视觉深度信息与精确运动控制数据对齐，该数据集为训练具备空间理解能力的机器人策略提供了关键资源，尤其对探索基于模仿学习的灵巧抓取、物体交互等前沿课题具有重要参考价值，有望加速人形机器人在服务与工业场景中的实用化进程。

当前挑战

该数据集所应对的核心领域挑战在于如何使双足人形机器人在非结构化环境中实现高精度灵巧操作。传统数据集多聚焦于固定基座机械臂，然而移动平台的本体感知、动态平衡与双臂协同控制引入了更高的状态空间复杂度，本数据集通过提供26维联合状态与动作的精确映射，为解决双臂手部协调与避碰难题奠定了基础。构建过程中面临的挑战包括：在有限样本量（82个episode）下确保数据多样性与任务泛化能力，同时需要同步高频采集RGB图、深度图与关节状态，并维持30帧每秒的实时性；此外，将深度图以视频形式存储而非传统深度映射格式，虽有利于与LeRobot框架集成，却增加了后续深度信息提取与利用的预处理复杂度，要求研究者在数据加载与策略训练时额外设计适配流程。

常用场景

经典使用场景

在具身智能与机器人学习领域，empty_can_img_depth数据集为模仿学习与强化学习算法提供了高保真的训练与评估平台。该数据集依托Unitree G1人形机器人平台，记录了82个完整回合的精细操作轨迹，包含26维关节状态与动作指令、多视角RGB图像及深度图，总帧数超过3万帧。其经典用途在于训练机器人执行空罐抓取、搬运等灵巧操作任务，通过将视觉与深度信息作为状态输入，动作空间精确映射至双臂与灵巧手的自由度，使模型能够学习从感知到动作的端到端映射策略。数据结构化存储于LeRobot框架，便于研究者直接套用现有算法库进行行为克隆或离线强化学习训练。

解决学术问题

该数据集系统性地回应了机器人操作领域长期存在的两大核心难题：如何从有限的高质量示范数据中高效泛化，以及如何融合多模态感知信息实现鲁棒控制。通过提供同步采样的视觉、深度与关节状态数据，它支持研究者探索跨模态表示学习，验证视觉-深度联合编码对操作精度与抗干扰能力的提升作用。同时，82回合成千上万的轨迹数据为离线强化学习中的OOD问题研究提供了基准，使学者得以分析状态分布偏移对策略泛化的影响，并推动基于约束优化或保守值估计的方法创新，从而为构建更安全、更可靠的具身智能系统奠定实证基础。

实际应用

在实际应用中，empty_can_img_depth数据集主要服务于工业自动化与家庭服务机器人场景。例如，在可回收垃圾分拣流水线上，机器人可基于该数据训练出的策略，依据深度信息精确识别空罐位置与姿态，通过灵巧手完成抓取与分类。在家庭辅助场景中，机器人可学习整理桌面上的易拉罐、水瓶等常见物品，并适应不同光照和背景干扰。此外，由于数据包含26维精细化动作空间，它还能用于开发医疗康复机器人中的末端执行器控制策略，以及教学平台中人形机器人的基础操作技能演示，展现了从实验室环境向真实部署的迁移潜力。

数据集最近研究