TheMuz/kirby_to_bowl_v1
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/TheMuz/kirby_to_bowl_v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由LeRobot创建,属于机器人领域。数据集包含80个episodes,共计58777帧,帧率为30fps。数据以parquet格式存储,包含机械臂的动作数据(如肩部、肘部、腕部等关节位置)、状态观测数据(与动作数据相同)、顶部和前方的图像观测数据(480x640分辨率,RGB三通道)。视频数据以mp4格式存储,使用av1编解码器。数据集总大小为100MB(数据文件)和200MB(视频文件)。
This dataset was created by LeRobot and belongs to the robotics domain. It contains 80 episodes with a total of 58,777 frames at 30 fps. The data is stored in parquet format and includes robotic arm action data (e.g., shoulder, elbow, wrist joint positions), state observation data (same as action data), and top and front image observations (480x640 resolution, RGB three channels). Video data is stored in mp4 format using the av1 codec. The total dataset size is 100MB (data files) and 200MB (video files).
提供机构:
TheMuz
搜集汇总
数据集介绍

构建方式
在机器人学习领域,高质量的数据集是推动技能习得与泛化的核心基石。kirby_to_bowl_v1数据集基于LeRobot框架构建,专注于单任务机器人操作场景。该数据集通过so_follower型机器人采集,共计包含80个演示回合(episodes),总计58777帧时序数据,以30帧/秒的速率记录。数据以parquet格式存储,每1000帧划分为一个chunk,便于高效加载与分布式处理。视频数据则采用AV1编码的.mp4文件保存,提供顶部与前方两个640×480像素的视角,完整捕捉机器人执行任务时的视觉动态。
特点
该数据集的设计兼具简洁性与实用性。其核心特点在于统一的64维动作与状态空间,涵盖 shoulder_pan、shoulder_lift、elbow_flex、wrist_flex、wrist_roll 及 gripper 六个关节的自由度,为模仿学习提供了精准的遥操作映射。100MB的结构化数据与200MB的视频文件规模适中,既保证了样本的丰富性,又降低了存储与处理的门槛。此外,数据集已预先划分为训练集(全部80回合),且每帧附带时间戳、帧索引与回合索引,为时间序列建模与回合间比对提供了天然支持。
使用方法
使用者可通过LeRobot库直接加载该数据集,利用其内置的数据加载器与可视化工具快速浏览样本。数据读取时,parquet文件中的动作、状态及多视角图像特征将被自动对齐,形成完整的(观测、动作)配对序列。对于模仿学习或强化学习任务,可依据episode_index划分训练与测试集,或按时间序列截取滑动窗口进行策略学习。视频帧通过AV1解码后以张量形式返回,可直接输入卷积神经网络,而6维连续动作空间则适用于高斯策略或扩散模型等高级算法。
背景与挑战
背景概述
在机器人学习领域,模仿学习(imitation learning)已成为推动灵巧操作技能获取的重要范式,其核心依赖于高质量、多模态的演示数据集。由研究团队TheMuz基于LeRobot框架构建的kirby_to_bowl_v1数据集,于近期发布并采用Apache-2.0许可证,旨在为机器人操作任务提供标准化训练资源。该数据集聚焦于单一任务——将物体(如Kirby角色)精准放入碗中,共包含80个演示回合、58,777帧时序数据,以及来自顶部和前向的双视角高清视频流(640×480分辨率,30 FPS)。数据通过SO_Follower机器人平台采集,记录6维关节空间的动作与状态信息,为端到端策略学习奠定了结构化基础。作为LeRobot生态的组成部分,该数据集填补了精细放置任务在标准化benchmark中的空白,有望推动机器人从感知到动作的闭环学习研究。
当前挑战
kirby_to_bowl_v1数据集的核心挑战在于解决精细化刚性物体放置任务中的感知-动作耦合问题。该类任务要求机器人精确理解目标容器的空间位姿与物体抓取后的插入轨迹,对视觉鲁棒性与运动精度的协同提出了严苛要求。此外,数据集的构建过程面临多重瓶颈:首先,80个演示回合在小规模范围内限制了策略泛化能力,环境光照、物体初始姿态的微小变化均可能导致模型失效;其次,基于遥操作或示教采集的演示质量高度依赖操作者技能,运动噪声与不一致的时序对齐增加了数据清洗难度;最后,仅包含单一任务类型可能导致模型过拟合,缺乏多任务迁移学习所需的多样性。这些挑战共同制约了数据集在真实复杂场景下的直接部署效果。
常用场景
经典使用场景
在机器人操作领域,kirby_to_bowl_v1数据集专为模仿学习与行为克隆任务设计,聚焦于将物体(类似卡比的软质玩偶)精准放入碗中的单一操作场景。该数据集采集自SO-Follower机器人,包含80个演示轨迹与近5.9万帧连续记录,融合了6维关节动作序列与高清视觉图像(顶部和前方摄像头),为研究机器人从人类演示中学习精细抓取与放置动作提供了标准化的数据基础。
解决学术问题
该数据集解决了机器人领域中从演示到泛化学习的核心难题,尤其是在高自由度机械臂的灵巧操作方面——如何通过少量示范样本实现稳定的物体转移任务。其结构化的多模态数据(动作、状态、图像)使研究者能够深入探索模仿学习的泛化边界、视觉运动策略的鲁棒性以及动作序列的时序一致性,推动了关于数据效率与跨场景适应性的学术讨论,为构建可复现的基线方法奠定了基础。
衍生相关工作
基于该数据集衍生出的研究工作包括:利用扩散策略(Diffusion Policy)进行机器人动作生成的贝叶斯建模方法、引入注意力机制改进视觉编码器的模仿学习框架,以及面向跨任务泛化的多阶段训练范式。此外,结合该数据集的视频与动作流,研究者探索了逆最优控制(Inverse Optimal Control)用于奖励函数推断,以及对比学习在状态表示压缩中的应用,这些工作共同丰富了机器人操作学习的技术栈。
以上内容由遇见数据集搜集并总结生成



