kirby_to_bowl_v1

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://huggingface.co/datasets/TheMuz/kirby_to_bowl_v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，主要用于机器人技术领域。数据集包含80个任务片段，总计58777帧数据，数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据以parquet格式存储，视频以mp4格式存储。数据集包含多种特征，如动作数据（包括肩部、肘部、手腕和夹持器的位置）、观察状态（与动作数据相同）、顶部和前置摄像头的视频观察（分辨率为480x640，3通道）、时间戳、帧索引、片段索引等。所有数据均为float32或int64类型。数据集适用于机器人控制、行为模仿等任务。

创建时间：

2026-04-30

原始信息汇总

数据集概述：kirby_to_bowl_v1

数据集地址: https://huggingface.co/datasets/TheMuz/kirby_to_bowl_v1

许可证: Apache-2.0
任务类别: 机器人学 (robotics)
标签: LeRobot

数据集描述

该数据集使用 LeRobot 创建，可通过可视化空间查看数据内容。

数据集结构

代码库版本: v3.0
机器人类型: so_follower
总片段数: 80
总帧数: 58777
总任务数: 1
数据分块大小: 1000
数据文件大小: 100 MB
视频文件大小: 200 MB
帧率 (fps): 30
数据分割: 训练集 (train) 包含所有 80 个片段（索引 0:80）

数据路径与格式

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
数据格式: Parquet 文件，视频为 MP4 格式 (AV1 编码)

特征字段

字段名称	数据类型	形状	说明
`action`	float32	[6]	动作指令，包含 6 个关节位置 (shoulder_pan, shoulder_lift, elbow_flex, wrist_flex, wrist_roll, gripper)
`observation.state`	float32	[6]	观察状态，与动作相同的 6 个关节位置
`observation.images.top`	video	[480, 640, 3]	顶部摄像头图像 (480x640 像素，3 通道，AV1 编码，30fps)
`observation.images.front`	video	[480, 640, 3]	前方摄像头图像 (480x640 像素，3 通道，AV1 编码，30fps)
`timestamp`	float32	[1]	时间戳
`frame_index`	int64	[1]	帧索引
`episode_index`	int64	[1]	片段索引
`index`	int64	[1]	总索引
`task_index`	int64	[1]	任务索引

引用信息

论文: 暂无信息
主页: 暂无信息

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集是推动技能习得与泛化能力提升的关键基石。kirby_to_bowl_v1数据集依托LeRobot框架构建，旨在服务于机械臂操控任务的模仿学习研究。该数据集通过真实机器人平台采集，聚焦于‘将物体放入碗中’这一精细操作动作，共收录80个完整演示片段，总计58777帧数据，统一以30帧/秒的频率录制。数据以分块Parquet格式存储，每个分块含1000帧，同时将多视角RGB视频（顶部与前方，分辨率480×640）以AV1编码压缩为MP4文件，以平衡存储效率与视觉保真度。数据集仅包含单一任务，但通过多个独立重复演示样本，为行为克隆等算法的训练与评估提供了结构化且规模适宜的数据基础。

使用方法

数据集设计了清晰且易扩展的访问接口，支持直接通过Hugging Face Datasets库加载Parquet文件与嵌入的视频流。使用者可根据元信息中定义的路径模式索引具体chunk与file，或利用LeRobot提供的可视化工具快速预览数据。在模型训练中，可灵活提取‘observation.state’作为策略输入，并利用‘action’作为监督信号；双视角图像则可通过视频解码器以逐帧读取的方式集成至视觉-运动策略网络。由于所有样本均属同一任务（episode_index与task_index恒定），研究人员可直接进行端到端的监督学习，无需处理任务标记的歧义性，降低了复现与横向对比的门槛。

背景与挑战

背景概述

在机器人学习与模仿学习领域，数据驱动的策略学习对高质量演示数据的依赖日趋显著。kirby_to_bowl_v1数据集由Hugging Face社区的研究者TheMuz创建，依托LeRobot开源框架生成，旨在为机器人细粒度操作任务提供标准化训练资源。该数据集聚焦于将目标物体（如Kirby玩偶）放入碗中的单一操作任务，包含80个演示片段、总计58,777帧、30Hz采样率的连续动作与状态记录，以及顶部和前方双视角高清视频流。作为Apache-2.0许可的开源资源，它填补了低成本、小规模专用机器人操作数据集的空白，为评估模仿学习算法在受限任务上的泛化性与复现性提供了基准。

当前挑战

该数据集所解决的领域挑战在于机器人操作任务中的技能迁移与数据稀缺问题：传统方法依赖手工编程或昂贵的数据采集，难以适应非结构化环境。构建过程中面临多重挑战，包括对6自由度机械臂（SO-Follower）运动学与末端夹爪力控制的精确同步标定，以及80个演示在起始位姿、光照和物体摆放上的微小差异对策略鲁棒性的考验。此外，30Hz高帧率视频与动作轨迹的严格时间戳对齐，以及从演示到可复现数据管道（如Parquet格式存储、AV1视频编解码）的转换，均对数据采集系统的同步性与一致性提出了较高要求。

常用场景

经典使用场景

在机器人学习领域，kirby_to_bowl_v1数据集聚焦于模仿学习中的经典操作任务——将物体放置于碗中。该数据集由LeRobot框架生成，包含80个完整演示回合，记录了“Kirby”玩偶被机械臂抓取并精确放入碗中的全过程。每一回合以30帧每秒的速率采集高分辨率视觉信息（顶部与前方摄像头）及六维关节状态与动作序列，为研究基于视觉的机器人操控提供了高质量的时空对齐数据。研究者可借此训练端到端的策略网络，实现从图像输入到连续动作输出的映射，是验证行为克隆、逆强化学习等范式在精细操作任务中有效性的理想基准。

解决学术问题

kirby_to_bowl_v1数据集核心解决了机器人模仿学习中数据稀缺与动作精度不足的学术难题。通过提供80个标准化演示回合及精确的关节空间标注，它使学者能够在受控条件下系统评估不同策略模型（如扩散策略、transformer架构）对未见初始条件的泛化能力。该数据集弥合了仿真环境与现实部署之间的鸿沟，推动了鲁棒性抓取与放置任务的研究进展。其对机器人运动协同、视觉-动作联合表征等前沿问题的探索，为构建可泛化的操作基元奠定了数据基础，深刻影响了具身智能从实验室走向真实场景的演进路径。

实际应用

在工业与家庭服务机器人领域，kirby_to_bowl_v1数据集直接赋能了自动分拣与物品整理等实际场景。其所代表的“抓取-放置”范式是仓储物流、医疗辅助及日常清洁中不可或缺的基础技能。基于该数据集训练的模型可迁移至类似任务，例如机器人将零件放入料箱或协助老年人摆放餐具。数据集的高保真视觉与动作记录还支持实时策略部署，降低了现场编程的人力成本。随着人机协作需求的增长，此类数据驱动的解决方案正加速机器人从单一重复操作向适应多变环境的柔性作业转型。

数据集最近研究