kapla_tower_3_expert
收藏Hugging Face2025-06-10 更新2025-06-11 收录
下载链接:
https://huggingface.co/datasets/kantine/kapla_tower_3_expert
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个机器人技术相关的数据集,包含15个剧集,共17925帧,1个任务,30个视频,所有数据被分为1个块,每个块包含1000帧。数据集以Apache-2.0许可发布,支持的特征包括机器人动作、状态、两个Logitech摄像头的图像等。
创建时间:
2025-06-05
原始信息汇总
数据集概述
基本信息
- 名称: kantine/kapla_tower_3_expert
- 许可证: Apache-2.0
- 任务类别: 机器人学 (robotics)
- 标签: LeRobot, so100, kapla
数据集描述
- 创建工具: 使用 LeRobot 创建
- 主页: 无提供
- 论文: 无提供
数据集结构
- 代码库版本: v2.1
- 机器人类型: so100
- 总集数: 15
- 总帧数: 17925
- 总任务数: 1
- 总视频数: 30
- 总块数: 1
- 块大小: 1000
- 帧率 (fps): 30
- 分割:
- 训练集: 0:15
数据路径
- 数据文件路径:
data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet - 视频文件路径:
videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4
特征
- 动作 (action):
- 数据类型: float32
- 形状: [6]
- 名称: main_shoulder_pan, main_shoulder_lift, main_elbow_flex, main_wrist_flex, main_wrist_roll, main_gripper
- 观测状态 (observation.state):
- 数据类型: float32
- 形状: [6]
- 名称: 同动作
- 观测图像 (observation.images.logitech_1 和 logitech_2):
- 数据类型: video
- 形状: [480, 640, 3]
- 视频信息:
- 高度: 480
- 宽度: 640
- 编码: av1
- 像素格式: yuv420p
- 非深度图
- 帧率: 30
- 通道: 3
- 无音频
- 时间戳 (timestamp):
- 数据类型: float32
- 形状: [1]
- 帧索引 (frame_index):
- 数据类型: int64
- 形状: [1]
- 集索引 (episode_index):
- 数据类型: int64
- 形状: [1]
- 索引 (index):
- 数据类型: int64
- 形状: [1]
- 任务索引 (task_index):
- 数据类型: int64
- 形状: [1]
引用
- BibTeX: 无提供
搜集汇总
数据集介绍

构建方式
在机器人操作任务数据采集领域,kapla_tower_3_expert数据集通过LeRobot平台系统化构建。该数据集包含15个完整操作序列,总计17925帧数据,采用分块存储机制,每个数据块容纳1000帧。数据采集依托so100型机器人系统,以30fps的帧率同步记录六维关节动作指令、双视角RGB视觉观测及时间戳元数据,确保了操作序列的时序一致性与多模态对齐。
特点
本数据集的核心特征体现在其多模态融合与精细化标注体系。动作空间涵盖肩部平移、肩部抬升、肘部屈伸、腕部屈伸、腕部旋转及夹持器开合六自由度控制指令;观测空间集成双Logitech相机采集的640×480分辨率RGB视频流,并附带机器人的实时关节状态反馈。所有数据均以标准化parquet格式存储,支持高效读取与跨平台处理,为模仿学习与行为克隆研究提供高精度基准。
使用方法
研究者可通过HuggingFace数据平台直接加载该数据集,利用LeRobot框架内置工具解析parquet文件结构。典型应用流程包括:提取连续帧序列重建操作轨迹,联合视觉观测与动作指令训练策略网络,或通过时间戳对齐多模态信号进行行为分析。数据集已预划分为训练集(15个完整序列),适用于端到端机器人操作策略的监督训练与验证。
背景与挑战
背景概述
在机器人操作学习领域,kapla_tower_3_expert数据集由HuggingFace的LeRobot项目团队构建,专注于解决复杂堆叠任务的示范学习问题。该数据集通过SO100型机器人采集专家演示数据,包含15个完整 episodes 和17925帧多模态观测记录,其核心研究在于推动机器人对精细操作任务的行为模仿与策略泛化能力。该数据集的建立为机器人模仿学习提供了高质量的实机操作范例,对促进机器人自主执行复杂装配任务具有重要价值。
当前挑战
该数据集致力于解决机器人精细操作中的动作规划与状态感知难题,特别是在多块积木堆叠任务中需克服高精度轨迹控制与视觉-动作协调的挑战。构建过程中面临多传感器数据同步、专家演示的一致性保证以及大规模视频数据的高效存储与处理等技术难点,同时需确保动作指令与视觉观测在时间维度上的严格对齐。
常用场景
经典使用场景
在机器人操作学习领域,kapla_tower_3_expert数据集通过记录专家操作卡普拉积木塔的完整过程,为模仿学习算法提供高质量示范数据。该数据集包含多视角视觉观测与六自由度机械臂动作轨迹,精确捕捉了堆叠积木时的抓取姿态、运动路径和精细操作技巧,成为机器人精细操作任务的标准评测基准。
衍生相关工作
该数据集催生了多项机器人学习领域的创新研究,包括基于视觉的端到端操作策略网络、多模态感知融合模型以及元强化学习框架。这些工作通过扩展数据集的应用边界,发展了分层强化学习、示范数据增强和跨任务迁移学习等先进方法,推动了整个领域的技术进步。
数据集最近研究
最新研究方向
在机器人操作学习领域,kapla_tower_3_expert数据集正推动模仿学习与多模态感知的深度融合研究。该数据集通过记录专家操作Kapla积木塔的完整轨迹,包含高维关节状态与双视角视觉观测,为机器人精细操作任务提供了宝贵的行为克隆样本。当前研究聚焦于如何融合视觉-动作表征学习,提升模型在复杂堆叠任务中的泛化能力。随着具身智能热潮兴起,这类结构化操作数据集成为验证视觉-运动协同策略的关键基准,对实现家庭服务机器人的自主操作能力具有重要推动作用。
以上内容由遇见数据集搜集并总结生成



