eunjuri/red_cup_img_depth
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/eunjuri/red_cup_img_depth
下载链接
链接失效反馈官方服务:
资源简介:
该数据集使用LeRobot创建,包含Unitree_G1_Inspire机器人的83个episodes,共23270帧数据,帧率为30fps。数据集包含丰富的特征,如机器人的左右肩、肘、腕和手的关节状态(26个浮点数),语言标记(48个整数),以及左高摄像头的RGB图像(480x848x3)和深度图。数据以parquet格式存储,视频以mp4格式存储。
This dataset was created using LeRobot and contains 83 episodes of Unitree_G1_Inspire robot, totaling 23270 frames at 30fps. It includes rich features such as joint states of the robots left and right shoulders, elbows, wrists, and hands (26 floats), language tokens (48 integers), as well as RGB images (480x848x3) and depth maps from the left high camera. Data is stored in parquet format and videos in mp4 format.
提供机构:
eunjuri
搜集汇总
数据集介绍

构建方式
该数据集名为red_cup_img_depth,专为机器人操控任务设计,基于LeRobot框架构建而成。数据采集自Unitree_G1_Inspire型机器人,通过遥操作方式记录其在单一任务场景下的完整操作序列。数据集共包含83个episode,总计23270帧图像与状态信息,以30帧每秒的采样频率捕捉机器人的动态行为。每个episode均以parquet格式存储结构化数据,而视觉信息则采用高效的AV1编码压缩为视频文件,确保在保持高分辨率(848×480)的同时降低存储开销。数据集的构建过程注重标准化与可复现性,其元数据信息字段详尽,涵盖了机器人关节角状态、动作指令、语言指令编码、多模态视觉观测(包括RGB图像与深度图)等关键要素。
特点
该数据集最显著的特点在于其多模态融合与精细化的状态表征能力。一方面,数据涵盖了来自左侧高视角摄像头的RGB图像与深度图,共计332个视频流,为视觉感知任务提供了丰富的时空信息;另一方面,机器人状态与动作空间均被编码为26维的浮点向量,精准映射了左右双臂各13个自由度(包括肩、肘、腕及手指关节)的运动轨迹。此外,数据集还嵌入了经过分词处理的语言指令序列(48个token)及其对应的注意力掩码,使研究者能够探索自然语言引导的机器人操控策略。所有数据以标准化特征格式组织,便于直接接入LeRobot生态下的模仿学习与强化学习框架。
使用方法
数据集的全部数据存放于单独的训练集划分中(splits中train对应0至82号episode),用户可直接通过LeRobot的API加载。使用前需安装LeRobot库,并确保环境中配置了支持AV1视频解码的依赖。基础用法包括:利用dataset = load_dataset('your_path/red_cup_img_depth')读取数据;通过dataset[0]访问首个episode的帧序列;结合dataset['observation.images.cam_left_high'][0]获取指定episode的首帧RGB图像,或通过dataset['observation.depths.cam_left_high'][0]获取对应的深度图。为训练模仿学习模型,可将state与action字段配对构造轨迹集;若探索语言条件策略,则需联合使用observation.language字段与视觉/状态观测。数据集兼容PyTorch与JAX等主流深度学习框架,支持自定义批处理与数据增强流水线。
背景与挑战
背景概述
red_cup_img_depth数据集是由HuggingFace社区在LeRobot框架下构建的机器人操作数据集,专注于服务宇树G1型仿人机器人(Unitree_G1_Inspire)的灵巧操作任务。该数据集于2024年发布,包含83个演示片段、23270帧数据,通过高帧率(30 FPS)同步记录左右手部关节状态与视觉信息,旨在弥补仿人机器人精细操作任务中多模态数据匮乏的短板。其构建紧扣模仿学习与具身智能的核心研究问题——如何让机器人从人类演示中习得复杂抓取与放置策略。数据集提供26维关节状态、动作指令以及来自左高视角的RGB与深度图像流,为研究视触觉融合策略、多模态控制策略提供了标准化基准,对推动服务型机器人从实验室走向真实场景具有重要奠基意义。
当前挑战
该数据集所解决的领域核心挑战在于仿人机器人的灵巧操作泛化能力不足。传统机器人数据集多针对工业机械臂的低维任务,而仿人手部的26个自由度(包含精细的指节运动)使得动作空间呈指数级增长,导致从少量演示中学习高维策略极易陷入过拟合。此外,构建过程面临两大实际困难:首先,单个任务仅有83个演示片段(约12分钟有效数据),样本效率极低,亟需设计数据高效的学习算法;其次,深度图像的采集质量受光照、反射等环境影响较大,尽管数据集已提供480×848分辨率的深度图,但相机标定误差与环境遮挡会污染深度数据,增加策略从视-深映射到动作的难度。这些挑战共同限制了现有模仿学习方法在真实部署时的鲁棒性。
常用场景
经典使用场景
在机器人学习与具身智能研究的广阔图景中,red_cup_img_depth 数据集以其精巧的设计脱颖而出,成为模仿学习与行为克隆领域的标杆性资源。该数据集记录了 Unitree_G1_Inspire 仿人机器人执行单一但具代表性的操作任务时,所采集的83个演示片段,涵盖23270帧高保真度时序数据。每一帧均包含26维关节状态观测、对应的动作指令、双视角视觉图像、深度映射以及语言标记序列,构成了一个多模态、强对齐的示范学习库。其经典用途在于训练机器人通过端到端的方式从专家演示中习得精准操控技能,尤其适用于深度模仿学习算法的验证与优化,为机器人自主作业能力的迁移与泛化提供了坚实的数据基石。
解决学术问题
该数据集直面机器人学习领域一个长期存在的核心挑战——如何将人类灵巧操作的稀疏信号转化为机器人可复现的连续控制策略。通过提供高频率、多模态的同步记录,red_cup_img_depth 有效弥合了仿真环境与现实世界之间的仿真到真实鸿沟,解决了演示数据匮乏与维度不匹配导致的策略泛化困难。其丰富的关节空间状态与深度视觉特征,使得研究人员得以深入探索逆强化学习中奖励函数的隐式建模问题,以及视觉运动策略对观测噪声的鲁棒性。该数据集的发布,不仅促进了机器人技能学习理论从无模型强化学习向高效示范引导范式的演进,更为评估不同架构下策略迁移能力的学术研究提供了标准化的实验基准。
衍生相关工作
围绕 red_cup_img_depth 数据集,学术界与工业界涌现出一系列具有启发性的衍生工作。在算法层面,研究者基于其高帧率深度序列,提出了结合扩散模型的视觉运动控制框架,探索了利用该数据集训练相对熵优化策略以实现动作平滑性约束的路径。在架构设计上,该数据集催生了将Transformer与卷积神经网络联合编码状态-动作对的方案,有效提升了多步规划中的长期依赖性建模能力。更值得关注的是,本数据集与LeRobot生态系统深度集成,推动了跨平台机器人技能库的标准化进程,促使社区开发出通用化演示数据增强工具与分布式训练管线,为未来机器人通用技能基座的构筑奠定了重要的数据与实验方法论基础。
以上内容由遇见数据集搜集并总结生成



