five

kirby_to_bowl_v1

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://huggingface.co/datasets/TheMuz/kirby_to_bowl_v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由LeRobot创建,主要用于机器人技术领域。数据集包含80个任务片段,总计58777帧数据,数据文件大小为100MB,视频文件大小为200MB,帧率为30fps。数据以parquet格式存储,视频以mp4格式存储。数据集包含多种特征,如动作数据(包括肩部、肘部、手腕和夹持器的位置)、观察状态(与动作数据相同)、顶部和前置摄像头的视频观察(分辨率为480x640,3通道)、时间戳、帧索引、片段索引等。所有数据均为float32或int64类型。数据集适用于机器人控制、行为模仿等任务。
创建时间:
2026-04-30
原始信息汇总

数据集概述:kirby_to_bowl_v1

数据集地址: https://huggingface.co/datasets/TheMuz/kirby_to_bowl_v1

  • 许可证: Apache-2.0
  • 任务类别: 机器人学 (robotics)
  • 标签: LeRobot

数据集描述

该数据集使用 LeRobot 创建,可通过 可视化空间 查看数据内容。

数据集结构

  • 代码库版本: v3.0
  • 机器人类型: so_follower
  • 总片段数: 80
  • 总帧数: 58777
  • 总任务数: 1
  • 数据分块大小: 1000
  • 数据文件大小: 100 MB
  • 视频文件大小: 200 MB
  • 帧率 (fps): 30
  • 数据分割: 训练集 (train) 包含所有 80 个片段(索引 0:80)

数据路径与格式

  • 数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
  • 视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
  • 数据格式: Parquet 文件,视频为 MP4 格式 (AV1 编码)

特征字段

字段名称 数据类型 形状 说明
action float32 [6] 动作指令,包含 6 个关节位置 (shoulder_pan, shoulder_lift, elbow_flex, wrist_flex, wrist_roll, gripper)
observation.state float32 [6] 观察状态,与动作相同的 6 个关节位置
observation.images.top video [480, 640, 3] 顶部摄像头图像 (480x640 像素,3 通道,AV1 编码,30fps)
observation.images.front video [480, 640, 3] 前方摄像头图像 (480x640 像素,3 通道,AV1 编码,30fps)
timestamp float32 [1] 时间戳
frame_index int64 [1] 帧索引
episode_index int64 [1] 片段索引
index int64 [1] 总索引
task_index int64 [1] 任务索引

引用信息

  • 论文: 暂无信息
  • 主页: 暂无信息
搜集汇总
数据集介绍
main_image_url
构建方式
在机器人学习领域,高质量的数据集是推动技能习得与泛化能力提升的关键基石。kirby_to_bowl_v1数据集依托LeRobot框架构建,旨在服务于机械臂操控任务的模仿学习研究。该数据集通过真实机器人平台采集,聚焦于‘将物体放入碗中’这一精细操作动作,共收录80个完整演示片段,总计58777帧数据,统一以30帧/秒的频率录制。数据以分块Parquet格式存储,每个分块含1000帧,同时将多视角RGB视频(顶部与前方,分辨率480×640)以AV1编码压缩为MP4文件,以平衡存储效率与视觉保真度。数据集仅包含单一任务,但通过多个独立重复演示样本,为行为克隆等算法的训练与评估提供了结构化且规模适宜的数据基础。
使用方法
数据集设计了清晰且易扩展的访问接口,支持直接通过Hugging Face Datasets库加载Parquet文件与嵌入的视频流。使用者可根据元信息中定义的路径模式索引具体chunk与file,或利用LeRobot提供的可视化工具快速预览数据。在模型训练中,可灵活提取‘observation.state’作为策略输入,并利用‘action’作为监督信号;双视角图像则可通过视频解码器以逐帧读取的方式集成至视觉-运动策略网络。由于所有样本均属同一任务(episode_index与task_index恒定),研究人员可直接进行端到端的监督学习,无需处理任务标记的歧义性,降低了复现与横向对比的门槛。
背景与挑战
背景概述
在机器人学习与模仿学习领域,数据驱动的策略学习对高质量演示数据的依赖日趋显著。kirby_to_bowl_v1数据集由Hugging Face社区的研究者TheMuz创建,依托LeRobot开源框架生成,旨在为机器人细粒度操作任务提供标准化训练资源。该数据集聚焦于将目标物体(如Kirby玩偶)放入碗中的单一操作任务,包含80个演示片段、总计58,777帧、30Hz采样率的连续动作与状态记录,以及顶部和前方双视角高清视频流。作为Apache-2.0许可的开源资源,它填补了低成本、小规模专用机器人操作数据集的空白,为评估模仿学习算法在受限任务上的泛化性与复现性提供了基准。
当前挑战
该数据集所解决的领域挑战在于机器人操作任务中的技能迁移与数据稀缺问题:传统方法依赖手工编程或昂贵的数据采集,难以适应非结构化环境。构建过程中面临多重挑战,包括对6自由度机械臂(SO-Follower)运动学与末端夹爪力控制的精确同步标定,以及80个演示在起始位姿、光照和物体摆放上的微小差异对策略鲁棒性的考验。此外,30Hz高帧率视频与动作轨迹的严格时间戳对齐,以及从演示到可复现数据管道(如Parquet格式存储、AV1视频编解码)的转换,均对数据采集系统的同步性与一致性提出了较高要求。
常用场景
经典使用场景
在机器人学习领域,kirby_to_bowl_v1数据集聚焦于模仿学习中的经典操作任务——将物体放置于碗中。该数据集由LeRobot框架生成,包含80个完整演示回合,记录了“Kirby”玩偶被机械臂抓取并精确放入碗中的全过程。每一回合以30帧每秒的速率采集高分辨率视觉信息(顶部与前方摄像头)及六维关节状态与动作序列,为研究基于视觉的机器人操控提供了高质量的时空对齐数据。研究者可借此训练端到端的策略网络,实现从图像输入到连续动作输出的映射,是验证行为克隆、逆强化学习等范式在精细操作任务中有效性的理想基准。
解决学术问题
kirby_to_bowl_v1数据集核心解决了机器人模仿学习中数据稀缺与动作精度不足的学术难题。通过提供80个标准化演示回合及精确的关节空间标注,它使学者能够在受控条件下系统评估不同策略模型(如扩散策略、transformer架构)对未见初始条件的泛化能力。该数据集弥合了仿真环境与现实部署之间的鸿沟,推动了鲁棒性抓取与放置任务的研究进展。其对机器人运动协同、视觉-动作联合表征等前沿问题的探索,为构建可泛化的操作基元奠定了数据基础,深刻影响了具身智能从实验室走向真实场景的演进路径。
实际应用
在工业与家庭服务机器人领域,kirby_to_bowl_v1数据集直接赋能了自动分拣与物品整理等实际场景。其所代表的“抓取-放置”范式是仓储物流、医疗辅助及日常清洁中不可或缺的基础技能。基于该数据集训练的模型可迁移至类似任务,例如机器人将零件放入料箱或协助老年人摆放餐具。数据集的高保真视觉与动作记录还支持实时策略部署,降低了现场编程的人力成本。随着人机协作需求的增长,此类数据驱动的解决方案正加速机器人从单一重复操作向适应多变环境的柔性作业转型。
数据集最近研究
最新研究方向
在机器人学习领域,精细操作任务的数据驱动范式正经历深刻变革。kirby_to_bowl_v1数据集专为末端执行器精准操控场景设计,聚焦于将Kirby玩偶平稳放置于碗中的单一任务,通过so_follower机器人采集了80个演示片段,涵盖近6万帧高精度动作序列与多视角视觉数据。该数据集紧密契合了近年来模仿学习与示教学习的前沿方向,尤其在利用少量专家演示泛化复杂操作行为方面具有标杆意义。随着LeRobot平台在开源机器人社区中的普及,此类标准化、低延迟的数据集为预训练-微调范式在实体机器人部署中的可行性研究提供了关键支撑,推动了从仿真到真实世界迁移的算法突破,对构建通用型机器人技能库具有奠基价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作