kimyg119/isaac_sim_voxposer_banana_pnp_v2
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/kimyg119/isaac_sim_voxposer_banana_pnp_v2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是使用LeRobot创建的机器人相关数据集,包含Piper机器人的观测和动作数据。数据集包含5个episodes,共2275帧,涉及1个任务。数据以视频和状态信息的形式存储,包括手腕摄像头和头顶摄像头的视频数据(分辨率480x640,30fps),以及机器人的7维关节状态(joint1-6和gripper)和7维动作数据。数据以parquet格式存储,总数据量100MB,视频数据量500MB。
This dataset is a robotics-related dataset created using LeRobot, containing observation and action data of a Piper robot. The dataset includes 5 episodes with a total of 2275 frames, covering 1 task. Data is stored in video and state information formats, including video data from wrist and overhead cameras (resolution 480x640, 30fps), as well as 7-dimensional joint states (joint1-6 and gripper) and 7-dimensional action data. The data is stored in parquet format, with a total data size of 100MB and video data size of 500MB.
提供机构:
kimyg119
搜集汇总
数据集介绍

构建方式
该数据集依托英伟达Isaac Sim仿真平台与VoxPoser任务规划框架构建,聚焦于机器人抓取与放置(PnP)操作任务,具体针对香蕉这一物体进行场景复现。数据集采用LeRobot框架进行采集与组织,共包含5个完整回合(episodes)、2275帧数据,所有数据均源自同一任务。仿真环境提供了高保真的视觉与运动学信息,通过wrist_cam与overhead_cam两个视角同步采集RGB图像,同时记录机器人7自由度关节状态(含夹爪)及对应的动作指令,形成完整的感知-动作闭环轨迹。
特点
数据集的核心特点在于其多模态融合结构与仿真环境的高效可复现性。视觉观测包含640×480像素的双视角视频流,编码格式为AV1,帧率稳定在30fps;状态与动作空间均为7维连续向量,涵盖6个关节角度与夹爪开合度。数据按1000帧为一块进行分块存储(chunks_size=1000),支持高效流式加载。所有回合被统一划分为训练集,无验证或测试拆分,适合小样本下的策略预训练或行为克隆研究。此外,视频与数值数据分开存储,便于按需访问。
使用方法
数据集遵循LeRobot标准格式,可通过LeRobot库的API直接加载。用户需指定config为'default',数据文件为parquet格式,视频文件为MP4格式,路径按'data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet'与'videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4'组织。加载时自动解析特征结构,获取'observation.images'(wrist_cam与overhead_cam)、'observation.state'、'action'等关键字段。适用于训练基于视觉的模仿学习模型,如扩散策略或Transformer架构,也可用于仿真到真实环境的迁移学习研究。
背景与挑战
背景概述
在机器人学习领域,从仿真到现实的策略迁移一直是研究焦点,而高质量、结构化的示范数据集是实现这一目标的关键基石。isaac_sim_voxposer_banana_pnp_v2 数据集由 HuggingFace LeRobot 社区基于 NVIDIA Isaac Sim 仿真环境构建,专注于机器人抓取与放置操作任务。该数据集创建于 2023 年后,依托 LeRobot 开源框架,核心研究问题在于如何利用仿真环境生成精准、可复用的机器人操作示范,以加速策略学习与泛化。通过采集 5 个完整 episoes(共 2275 帧)的关节状态、动作指令以及腕部与顶部摄像头的高清视觉数据,该数据集为模仿学习与强化学习方法提供了统一的基准,推动了仿真数据在真实机器人部署中的实用化进程。
当前挑战
该数据集所应对的领域挑战在于机器人操作任务的复杂性与数据稀缺性。仿真数据虽可解决真实场景采集成本高、规模受限的问题,但面临 sim-to-real 迁移中的域差异,如视觉特征、动力学参数与物理引擎不匹配导致的策略性能下降。构建过程中,数据采集需保证多视角图像(480×640 分辨率)与 7 维关节状态的时间同步,且仅包含单一任务(香蕉抓取放置),任务多样性不足可能导致模型过拟合。此外,总帧数 2275、5 个 episoes 的小规模样本量,限制了数据对复杂操作模式的覆盖,对策略的鲁棒性与泛化能力提出了更高要求。
常用场景
经典使用场景
在机器人学习与仿真领域,数据集是推动算法从理论走向实践的关键基石。isaac_sim_voxposer_banana_pnp_v2 数据集专为机械臂的抓取与放置(Pick-and-Place)任务而设计,其经典使用场景在于训练基于视觉的运动策略。该数据集包含了从仿真环境Isaac Sim中采集的高质量多视角图像(手腕相机与俯视相机)以及机器人关节状态与动作序列。研究者常利用这些数据训练模仿学习或强化学习模型,使机器人学会从视觉输入直接映射到精确的关节运动指令,从而完成对目标物体(如香蕉)的稳定抓取与精确放置。数据集以30帧每秒的高频采样和标准化格式存储,便于直接接入LeRobot等主流框架进行策略学习与评估。
实际应用
在实际应用中,该数据集的研究成果直接赋能智能仓储与柔性制造等工业场景。基于该数据集训练的机器人操作系统能够胜任流水线上的物品分拣、抓取与装箱任务,例如在物流中心自动识别并拾取易损水果或异形包装盒,并精准放置到指定容器中。由于数据集源自仿真环境,其训练出的策略可通过域随机化等技术迁移至真实世界的piper机器人上,在零售行业的无人货架补货、医疗领域的药品分拣以及家庭服务中的物品整理等场景中发挥效用。这些应用显著降低了人工操作的强度与错误率,同时提升了作业的自动化水平与生产效率,展现了从仿真数据集到实际机器人部署的完整技术链条。
衍生相关工作
围绕该数据集,已衍生出多项推动机器人学习领域发展的经典工作。其中之一是基于该数据分布进行策略预训练的研究,研究者利用其丰富的视觉与状态信息,探索了行为克隆与离线强化学习算法的性能上限。另一个方向是利用数据集中的多视角视频流,开发跨视角特征对齐的表示学习模型,以增强机器人在不同观测条件下的操作稳定性。此外,该数据集还被用于测试动作分块(Action Chunking)技术与时间序列预测网络在精细操作任务中的有效性,相关成果验证了利用1000帧的数据块进行策略学习能显著提升长程任务的成功率。这些工作不仅深化了对机器人技能学习规律的理解,也为后续更复杂、更通用的数据集构建与算法设计奠定了坚实的基础。
以上内容由遇见数据集搜集并总结生成



