kimyg119/isaac_sim_voxposer_banana_pnp_v3

Name: kimyg119/isaac_sim_voxposer_banana_pnp_v3
Creator: kimyg119
Published: 2026-04-30 12:50:39
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/kimyg119/isaac_sim_voxposer_banana_pnp_v3

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的机器人数据集。它包含来自手腕和头顶摄像头的视频观察、机器人状态观察、动作以及各种索引。数据集包括1个片段，共300帧，总计1个任务，数据以parquet文件格式存储，视频以mp4格式存储。视频分辨率为480x640，帧率为30fps，包含3个颜色通道。机器人状态和动作数据包含7个关节（包括夹爪）的浮点数值。

This dataset is a robotics dataset created using LeRobot. It contains video observations from wrist and overhead cameras, robot state observations, actions, and various indices. The dataset includes 1 episode with 300 frames, totaling 1 task, with data stored in parquet files and videos in mp4 format. The video resolution is 480x640 with a frame rate of 30fps and contains 3 color channels. The robot state and action data include floating-point values for 7 joints (including the gripper).

提供机构：

kimyg119

搜集汇总

数据集介绍

构建方式

在机器人操作任务日益复杂的背景下，该数据集依托于英伟达Isaac Sim仿真环境，结合VoxPoser框架构建而成，专注于香蕉拾取与放置这一精细操作场景。数据集采用piper机器人平台，通过LeRobot工具链采集了8个高质量演示片段，总计2800帧，涵盖单任务场景。数据以Parquet格式存储，并辅以MP4视频文件，实现了结构化与视觉信息的深度融合。

使用方法

该数据集专为LeRobot框架优化，可直接通过HuggingFace数据集库加载使用。用户可利用其提供的Parquet文件和视频路径，轻松构建训练流水线。数据集已预先划分为训练集，包含全部8个片段，适合进行离线模仿学习。推荐采用特征中的‘observation.state’和‘action’字段作为模型输入输出，结合双视角视觉观测，以端到端方式训练机器人操作策略，实现从感知到动作的精准映射。

背景与挑战

背景概述

在机器人学习领域，数据驱动的灵巧操作策略日益成为研究焦点，而如何高效获取高质量、多模态的演示数据仍是核心瓶颈。isaac_sim_voxposer_banana_pnp_v3数据集由基于NVIDIA Isaac Sim的仿真环境生成，依托LeRobot框架构建，旨在为抓取与放置（Pick-and-Place）任务提供标准化训练资源。该数据集于2024年左右创建，由HuggingFace社区与机器人研究机构联合推动，专注于解决单一任务——香蕉的抓取与放置操作，共收录8个完整轨迹片段、合计2800帧数据，包含腕部与顶置双视角高清视频（640×480分辨率，30 FPS）以及7自由度关节状态与动作序列。其采用Apache-2.0开源协议，显著降低了机器人学习研究的复现门槛，为仿真到现实迁移、模仿学习等方向提供了基准数据支持。

当前挑战

该数据集所解决的领域问题核心在于机器人灵巧操作的技能泛化能力提升，尽管仅覆盖单一任务，但通过高保真仿真与多视角观测，为策略学习提供了结构化的状态-动作映射空间。然而，构建过程中面临多重挑战：其一，仿真环境与真实物理世界间的动态差距（Sim-to-Real Gap）导致策略迁移不可靠，需要精细的域随机化设计；其二，数据规模有限，仅8个回合（episodes）的轨迹难以覆盖复杂操作中的长尾场景与物体位姿变化；其三，动作空间维度较高（7自由度），且未包含力触觉反馈，限制了精细力控策略的学习；其四，Parquet格式数据及AV1编码视频虽高效，但需专用解析库，增加跨平台复用的复杂性。

常用场景

经典使用场景

在机器人操作与模仿学习领域，该数据集承载了基于视觉的灵巧操控任务，尤其聚焦于‘拾取与放置’这一基础且关键的技能。其经典使用场景是驱动机器人通过观察手腕相机与顶置相机的多视角图像，结合七维关节状态信息，学习从初始状态到目标状态的精确映射。数据集以30帧每秒的高频采样，记录了Piper机械臂在模拟环境中执行香蕉抓取动作的完整轨迹，为训练端到端的策略网络提供了密集且结构化的示范数据。

解决学术问题

该数据集直面机器人学习中数据稀疏与泛化性不足的顽疾，通过提供高质量、多模态的模拟数据，为解决小样本模仿学习中的维度灾难问题提供了坚实基准。它使研究者能够系统性地探索视觉特征与动作序列之间的隐含关联，从而推动视觉运动策略（Visuomotor Policy）在复杂物体操控上的鲁棒性提升。其存在降低了实体机器人数据采集的高昂成本，加速了从仿真到现实迁移的学术验证流程。

实际应用

在工业与家庭服务场景中，该数据集的实际应用价值体现在赋能机器人完成精细化的物品分拣与装配任务。例如，在物流仓储的杂乱环境中，机器人可基于所学的策略，依靠手腕摄像头的局部视野与顶置摄像头（overhead_cam）的全局感知，灵巧地识别并抓取形状各异的香蕉状物体。这为农产品分拣、生产线物料搬运等自动化流程提供了可复现的算法验证基础。

数据集最近研究