panda_pick_cube_conrft_with_action_embeddings

Hugging Face2025-09-13 更新2025-09-14 收录

下载链接：

https://huggingface.co/datasets/lilkm/panda_pick_cube_conrft_with_action_embeddings

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于机器人学的数据集，包含了多个任务场景，使用了LeRobot作为标签。数据集以parquet文件格式存储，每个文件包含了一个episode的信息，包括状态、动作、奖励等。此外，数据集还包含了视频信息，用于观察机器人的行为。数据集遵循apache-2.0许可。

创建时间：

2025-09-11

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集结构

总任务数: 1
总视频数: 6
总片段数: 3
总帧数: 54
片段大小: 1000
帧率: 10 fps
数据格式: Parquet
数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4
训练集划分: 0:3

特征字段

observation.state: 浮点32数组，形状[18]
action: 浮点32数组，形状[4]，包含delta_x_ee、delta_y_ee、delta_z_ee、gripper_delta
next.reward: 浮点32数组，形状[1]
next.done: 布尔数组，形状[1]
complementary_info.discrete_penalty: 浮点32数组，形状[1]，包含discrete_penalty
complementary_info.mc_returns: 浮点32数组，形状[1]，包含mc_returns
observation.images.front: 视频格式，形状[256,256,3]，包含高度256、宽度256、编码av1、像素格式yuv420p、非深度图、帧率10fps、3通道、无音频
observation.images.wrist: 视频格式，形状[128,128,3]，包含高度128、宽度128、编码av1、像素格式yuv420p、非深度图、帧率10fps、3通道、无音频
timestamp: 浮点32数组，形状[1]
frame_index: 整型64数组，形状[1]
episode_index: 整型64数组，形状[1]
index: 整型64数组，形状[1]
task_index: 整型64数组，形状[1]

创建信息

代码库版本: v2.1
创建工具: LeRobot (https://github.com/huggingface/lerobot)

搜集汇总

数据集介绍

构建方式

在机器人操作任务研究领域，panda_pick_cube_conrft_with_action_embeddings数据集通过LeRobot平台系统构建，采用高精度动作捕捉与多模态传感器同步采集技术。数据以10Hz频率记录机械臂末端执行器的三维位移与夹爪控制信号，同步采集前视与腕部双视角视频流，并整合18维状态观测向量与奖励信号，形成完整的交互轨迹序列。

特点

该数据集显著特征体现在其多模态融合架构与精细的动作嵌入表示，包含256×256分辨率前视图像与128×128腕部视角视频，辅以4维连续动作空间和18维状态向量。每个数据帧配备时间戳与索引标识，支持精确的时序分析与强化学习训练。独特的离散惩罚与蒙特卡洛回报字段为策略评估提供多维反馈机制。

使用方法

研究者可通过加载标准parquet格式数据文件，直接访问多模态观测序列与动作标签。数据集支持端到端模仿学习与强化学习算法训练，利用视频流与状态向量的对齐特性实现行为克隆。奖励信号与完成标志字段适用于离线强化学习任务，而分块存储结构便于大规模分布式训练场景的数据流式加载。

背景与挑战

背景概述

机器人操作任务数据集panda_pick_cube_conrft_with_action_embeddings由HuggingFace的LeRobot项目团队构建，专注于机械臂抓取立方体的精细化操作。该数据集通过集成多模态观测数据与动作嵌入表征，旨在推动模仿学习与强化学习在机器人控制领域的融合应用。其设计体现了对现实世界物理交互复杂性的深入理解，为机器人灵巧操作算法的开发提供了关键数据支撑。

当前挑战

该数据集核心挑战在于解决高维视觉-动作映射的复杂性，需精确解析前端与腕部视觉观测与末端执行器动作的时空关联。构建过程中面临多传感器时序同步、动作嵌入表征的稳定性保障，以及跨 episode 任务一致性的维护等关键技术难题。此外，稀疏奖励信号下的策略学习与真实物理交互中的状态不确定性进一步增加了算法训练的复杂度。

常用场景

经典使用场景

在机器人操作学习领域，该数据集通过记录机械臂抓取立方体的完整操作序列，为模仿学习与强化学习算法提供了标准化的训练与评估环境。其多模态观测数据包含前端与腕部视觉信息及18维状态向量，完美契合机器人操作任务中环境感知与动作执行的耦合需求，成为研究端到端操作策略的经典基准。

衍生相关工作

该数据集催生了多项机器人学习领域的创新研究，包括基于动作嵌入的跨任务泛化方法、多模态观测下的策略蒸馏技术，以及结合离线强化学习的操作策略优化框架。这些工作通过利用数据集提供的密集交互数据，在减少现实世界交互次数的同时提升了策略性能，形成了以数据为中心机器人学习的新研究方向。

数据集最近研究