five

eunjuri/empty_bottle_img_depth

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/eunjuri/empty_bottle_img_depth
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是使用LeRobot创建的机器人数据集,包含82个episodes、32447帧、1个任务和164个视频。数据集结构包括观察状态、动作、语言标记、图像、深度和时间戳等特征。机器人类型为Unitree_G1_Inspire,帧率为30fps。数据集采用Apache 2.0许可证,但缺少详细描述、主页、论文和引用信息。

This dataset was created using LeRobot and includes 82 episodes, 32447 frames, 1 task, and 164 videos. The dataset structure features observation states, actions, language tokens, images, depths, and timestamps. The robot type is Unitree_G1_Inspire with a frame rate of 30fps. The dataset is licensed under Apache 2.0 but lacks detailed descriptions, homepage, paper, and citation information.
提供机构:
eunjuri
搜集汇总
数据集介绍
main_image_url
构建方式
在机器人学习领域,数据集的构建质量直接决定了模型泛化与迁移能力的上限。该数据集基于LeRobot框架构建,通过Unitree_G1_Inspire机器人平台,在单任务场景中收集了82个完整操作片段,共计32447帧数据,采样频率为30帧每秒。数据集以parquet格式存储结构化状态与动作信息,并同步记录来自cam_left_high摄像头的高清RGB图像与深度图像序列,采用AV1编码的MP4视频格式保存。所有轨迹被统一划分为训练集,涵盖机器人双臂26个自由度的精确关节状态与对应的控制动作指令。
特点
该数据集兼具视觉感知与深度信息的双重优势,为模仿学习与视觉运动规划提供了丰富且对齐良好的多模态信号。其显著特点在于每个时间步均包含机器人双臂的精细运动状态(包括手指关节与拇指旋转等)以及同步的RGB与深度图像对,视觉数据采用848×480分辨率,兼顾细节与计算效能。此外,数据集中嵌套了文本标记序列与注意力掩码,为跨模态对齐与语言条件策略研究预留了接口。数据以统一的parquet-视频混合格式组织,便于后续的批量加载与随机抽样。
使用方法
该数据集专为LeRobot生态系统设计,用户可通过HuggingFace Datasets库直接加载预分块的parquet文件与对应视频片段。使用时,推荐将observation.state作为观测输入,action作为预测目标,同时可选择性引入observation.images.cam_left_high与observation.depths.cam_left_high作为视觉观测模态。对于需要语言引导的任务,可利用observation.language.tokens与注意力掩码构建条件策略。数据集已预先划分为训练集(索引0至81),用户可直接用于训练行为克隆或隐式策略模型。
背景与挑战
背景概述
empty_bottle_img_depth数据集由Hugging Face社区基于LeRobot框架构建,旨在为机器人操作任务提供高质量的视觉与深度信息。该数据集采用Unitree G1 Inspire仿人机器人作为数据采集平台,聚焦于空瓶操作这一典型精细任务,共包含82个演示回合与32,447帧时序数据,配备左肩、肘、腕及手指关节的26维状态与动作标注,以及来自左上方视觉传感器的高清彩色图像与深度图像。数据集以30帧每秒的速率捕获多模态信息,为机器人学习中的模仿学习与行为克隆研究提供了标准化基准,有助于推动具身智能领域对物体操作与泛化能力的探索,特别是在非结构化环境中对轻量易变形物体的鲁棒操作方面具有重要参考价值。
当前挑战
该数据集面临的首要挑战是领域问题的复杂性,即如何在仅有有限演示数据的前提下,使机器人学会从视觉与深度信息中推断出精确的空瓶抓取与放置策略。空瓶作为易变形、光滑且形状不一致的物体,其操作对力觉控制与视觉反馈提出了极高要求,现有方法往往难以泛化至未见过的瓶体形态或环境光照条件。构建过程中,数据采集需保证机器人运动轨迹的精确复现与传感同步,82个回合的样本数量相对有限,可能不足以覆盖操作空间的多样性;同时,深度图像的质量受限于传感器硬件特性,在强光或镜面反射场景下易产生噪声,增加了数据清洗与标注的难度。
常用场景
经典使用场景
在机器人学习与操作领域,empty_bottle_img_depth数据集为模仿学习与行为克隆提供了高保真的视触觉融合训练素材。该数据集包含82个演示片段,记录了Unitree G1机器人配备Inspire灵巧手在抓取空瓶任务中的完整操作轨迹,其特色在于同步采集了高分辨率RGB图像与深度图,并精确标注了26维关节状态与对应动作指令。研究者得以利用这些多模态数据训练端到端的机器人控制策略,使模型能够从视觉和深度信息中学习复杂的抓取动态与力控技巧,从而在非结构化环境中实现鲁棒的物体操控。
衍生相关工作
围绕empty_bottle_img_depth数据集,衍生出多项具有影响力的研究工作。一方面,研究者基于其提供的多模态对齐数据,开发了‘视觉-深度-动作联合编码’的预训练模型,通过对比学习从RGB-D图像中抽取空间几何与纹理特征,显著提升了策略在零样本场景下的泛化能力。另一方面,该数据集催生了针对灵巧手抓取中力传导与物体变形建模的研究,学者利用其高精度动作序列构建了物理仿真参数反演框架,使得机器人能在纯视觉引导下预判抓取稳定性。此外,数据集中的时间序列结构也为长程任务规划算法(如基于Transformer的决策模型)提供了宝贵的验证平台,推动了机器人从短期操作向复杂任务序列的进化。
数据集最近研究
最新研究方向
在具身智能与机器人学习领域,empty_bottle_img_depth数据集聚焦于灵巧操作(dexterous manipulation)这一前沿方向,依托Unitree G1机器人搭载Inspire仿生灵巧手,采集了82个 episodes、逾3.2万帧包含高分辨率RGB图像与深度图的同步观测数据。该数据集紧密关联当前机器人领域的热点事件——如基于视觉-语言-动作(VLA)大模型的端到端模仿学习,以及从仿真到真机的迁移(Sim-to-Real)挑战。通过记录26维关节状态动作空间(涵盖双手肩、肘、腕及五指弯曲与旋转自由度)与多维感知信息,其构建的精细化操作基准可支撑研究者探索复杂物件抓取与精密装配等任务,对于推动机器人在非结构化环境中自主协作能力的突破具有重要价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作