stack_cake_v2

Hugging Face2025-11-21 更新2025-11-22 收录

下载链接：

https://huggingface.co/datasets/LSY-lab/stack_cake_v2

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于机器人学的数据集，包含了使用LeRobot生成的数据。数据集采用apache-2.0许可证。数据集的结构包括多种观测数据，如主摄像头图像、触觉图像、腕部图像、笛卡尔状态、夹爪状态、关节状态、力传感器数据、触觉传感器数据、目标状态等。动作数据包括位置、姿态和夹爪的开合。此外，还包括时间戳、帧索引、剧集索引、任务索引等信息。

创建时间：

2025-11-19

原始信息汇总

数据集概述

基本信息

数据集名称: stack_cake_v2
许可证: Apache-2.0
任务类别: 机器人学
创建工具: LeRobot

数据集结构

数据配置

配置名称: default
数据文件: data//.parquet
代码库版本: v2.1
机器人类型: franka
帧率: 15 FPS
分块大小: 1000

数据统计

总片段数: 0
总帧数: 0
总任务数: 0
总视频数: 0
总分块数: 0

数据特征

图像观测

主摄像头图像 (observation.images.primary)
- 数据类型: 视频
- 分辨率: 256×256×3
- 视频帧率: 30.0
- 编码格式: av1
触觉图像 (observation.images.tactile)
- 数据类型: 视频
- 分辨率: 256×256×3
- 视频帧率: 30.0
- 编码格式: av1
腕部摄像头图像 (observation.images.wrist)
- 数据类型: 视频
- 分辨率: 256×256×3
- 视频帧率: 30.0
- 编码格式: av1

状态观测

笛卡尔坐标 (observation.state.cartesian)
- 数据类型: float32
- 维度: 6 (x, y, z, roll, pitch, yaw)
夹爪状态 (observation.state.gripper)
- 数据类型: float32
- 维度: 1
关节状态 (observation.state.joints)
- 数据类型: float32
- 维度: 7 (joint_0 到 joint_6)
力/扭矩传感器 (observation.state.sensors_ft_sensor)
- 数据类型: float32
- 维度: 6
触觉传感器 (observation.state.sensors_tactile_sensor)
- 数据类型: float32
- 维度: 15
目标状态 (observation.state.target)
- 数据类型: float32
- 维度: 6 (target_x, target_y, target_z, target_roll, target_pitch, target_yaw)
完整状态 (observation.state)
- 数据类型: float32
- 维度: 41

动作数据

动作 (action)
- 数据类型: float32
- 维度: 7 (x, y, z, roll, pitch, yaw, gripper)

索引信息

时间戳 (timestamp): float32
帧索引 (frame_index): int64
片段索引 (episode_index): int64
索引 (index): int64
任务索引 (task_index): int64

文件路径格式

数据文件: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频文件: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

引用信息

论文: 待补充
主页: 待补充
BibTeX引用: 待补充

搜集汇总

数据集介绍

构建方式

在机器人技术领域，stack_cake_v2数据集依托LeRobot框架构建，采用模块化数据组织方式。数据以分块形式存储于Parquet文件中，每块包含1000个连续帧，确保数据的高效访问与处理。该数据集通过Franka机器人平台采集，涵盖多模态观测信息，包括视觉、触觉及关节状态等，并以15帧每秒的采样率记录动态交互过程，为机器人学习任务提供结构化数据基础。

使用方法

研究者可通过解析Parquet文件结构直接访问数据，利用帧索引与回合索引实现时序数据的精确提取。多路视频流与传感器数据可通过特征字典中定义的路径模板加载，支持端到端的模仿学习或行为克隆任务。该数据集兼容主流机器人学习框架，其标准化的数据格式便于进行状态重构、动作预测等实验，同时为多模态融合算法提供结构化输入接口。

背景与挑战

背景概述

在机器人学习领域，高质量数据集的构建对于推动智能体在复杂环境中的自主决策能力具有关键意义。stack_cake_v2数据集由LeRobot研究团队基于Apache 2.0协议开发，专为机器人操作任务设计。该数据集通过Franka机器人平台采集多模态感知数据，涵盖视觉、触觉及关节状态等多维度观测特征，旨在解决机器人精细操作中的动作规划与状态感知核心问题。其结构化数据存储格式与标准化特征定义，为机器人模仿学习与强化学习算法提供了重要基准。

当前挑战

机器人操作任务面临环境感知与动作执行的耦合难题，需解决多传感器数据融合、高维状态空间建模等核心问题。数据集构建过程中，多源异构数据的同步采集与存储效率构成主要挑战，包括视觉流与机械状态的时间对齐、大规模视频数据的实时压缩编码。此外，触觉传感器数据的噪声抑制与关节轨迹的平滑性保障，亦对数据质量提出了严格要求。

常用场景

经典使用场景

在机器人学习领域，stack_cake_v2数据集凭借其多模态观测数据与精确动作记录的融合，成为模仿学习与强化学习算法验证的经典基准。该数据集通过Franka机器人平台采集的视觉、触觉及关节状态信息，为研究者提供了模拟复杂操作任务的高质量环境，尤其适用于机械臂抓取、物体堆叠等精细操作的研究场景。

解决学术问题

该数据集有效解决了机器人操作任务中多传感器融合建模的学术难题，通过提供包含笛卡尔坐标、力矩传感与触觉反馈的41维状态空间，显著提升了动作预测模型的物理一致性。其结构化时序数据为端到端策略学习提供了坚实基础，推动了具身智能在动态环境中泛化能力的理论突破。

实际应用

基于真实工业场景的数据特征，该数据集可直接应用于智能制造领域的自动化分拣系统开发。其包含的触觉传感视频流与六维力控数据，为精密装配、柔性抓取等工业机器人应用提供了可靠的仿真训练环境，显著降低了实体机器人的调试成本与安全风险。

数据集最近研究