cook_pasta

Hugging Face2025-12-06 更新2025-12-07 收录

下载链接：

https://huggingface.co/datasets/kfstiger/cook_pasta

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过LeRobot创建的，主要用于机器人技术领域。数据集包含41个episodes，93074帧数据，1个任务，数据以parquet格式存储，视频数据以mp4格式存储。数据集包含机器人动作、观察状态、多个视角的图像数据（顶部、正面、机械臂）等特征。

This dataset was developed using LeRobot, and is primarily intended for the robotics field. It contains 41 episodes, 93,074 frames of data, and covers one single task. The structured data is stored in Parquet format, while the video data is stored in MP4 format. The dataset includes features such as robot actions, observation states, and multi-view image data from top, front, and robotic arm-mounted perspectives.

创建时间：

2025-12-06

原始信息汇总

数据集概述

基本信息

数据集名称: cook_pasta
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集规模与结构

总任务数: 1
总情节数: 41
总帧数: 93074
数据块大小: 1000帧
数据文件总大小: 100 MB
视频文件总大小: 500 MB
帧率: 30 FPS
数据分割: 训练集 (0:41)

数据文件格式与路径

数据文件格式: Parquet
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据集特征

动作空间

特征名: action
数据类型: float32
形状: [6]
描述: 包含6个关节的位置指令，具体为：
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

状态观测

特征名: observation.state
数据类型: float32
形状: [6]
描述: 包含6个关节的当前位置，具体为：
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

图像观测

顶部摄像头

特征名: observation.images.top
数据类型: video
形状: [480, 640, 3]
视频信息:
- 高度: 480像素
- 宽度: 640像素
- 编解码器: AV1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30 FPS
- 通道数: 3
- 包含音频: 否

前部摄像头

特征名: observation.images.front
数据类型: video
形状: [480, 640, 3]
视频信息:
- 高度: 480像素
- 宽度: 640像素
- 编解码器: AV1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30 FPS
- 通道数: 3
- 包含音频: 否

机械臂摄像头

特征名: observation.images.arm
数据类型: video
形状: [480, 640, 3]
视频信息:
- 高度: 480像素
- 宽度: 640像素
- 编解码器: AV1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30 FPS
- 通道数: 3
- 包含音频: 否

元数据特征

时间戳: timestamp (float32, 形状 [1])
帧索引: frame_index (int64, 形状 [1])
情节索引: episode_index (int64, 形状 [1])
索引: index (int64, 形状 [1])
任务索引: task_index (int64, 形状 [1])

技术信息

代码库版本: v3.0
机器人类型: so101_follower

引用信息

主页: 未提供
论文: 未提供
BibTeX引用: 未提供

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的行为数据对于模型训练至关重要。cook_pasta数据集依托LeRobot平台构建，通过so101_follower型机器人执行烹饪意大利面的单一任务，采集了41个完整的行为序列。数据以每秒30帧的速率记录，包含总计93074帧，并以分块存储的Parquet格式组织，每块约1000帧，便于高效处理与访问。

特点

该数据集在机器人操作任务中展现出多维度的数据表征。其核心特征在于同步记录了机器人的六维关节位置动作与状态观测，并融合了顶部、前方及机械臂视角的三路RGB视频流，每路分辨率达640x480。这种多模态设计不仅提供了丰富的视觉上下文，还确保了动作与观测在时间戳上的严格对齐，为模仿学习与行为克隆算法提供了结构化的输入输出对。

使用方法

为便于研究使用，数据集已预先划分为训练集，涵盖全部41个序列。用户可通过加载指定的Parquet数据文件来获取帧级的动作、观测及图像特征，并利用配套的MP4视频文件进行可视化验证。该数据集适用于训练端到端的机器人策略模型，或用于评估在动态烹饪环境下的感知与控制联合性能。

背景与挑战

背景概述

在机器人学习领域，模仿学习与强化学习的发展亟需高质量、任务特定的真实世界交互数据集。cook_pasta数据集由HuggingFace的LeRobot项目创建，旨在为机器人执行烹饪任务提供示范数据。该数据集聚焦于煮意大利面的具体操作，通过SO101跟随者机器人采集了41个完整交互序列，包含超过九万帧的多视角视觉观测与六维关节动作数据。其构建体现了将复杂日常任务转化为结构化机器人指令的研究趋势，为家庭服务机器人的技能学习提供了宝贵的实证资源。

当前挑战

cook_pasta数据集致力于解决机器人模仿学习中复杂长时程任务的动作序列生成挑战，其核心在于从多模态观察中推断出精确、连贯的机械臂控制策略。构建过程中面临多重困难：真实厨房环境的动态性与不确定性增加了数据采集的复杂度；多摄像头视频流与高维动作数据的同步对齐需要精细的时间戳处理；有限的演示样本数量可能制约模型的泛化能力。此外，烹饪任务涉及对非刚性物体（如面条）的操作，其状态表示与动作映射仍是一个开放性问题。

常用场景

经典使用场景

在机器人学习领域，cook_pasta数据集以其多视角视觉与关节状态同步记录的特性，为模仿学习算法提供了经典范例。该数据集通过记录机械臂执行煮意大利面任务的全过程，包含顶部、前方和机械臂视角的高帧率视频，以及六自由度关节位置数据，使得研究者能够训练模型从视觉观察中推断出精确的动作序列。这种设置尤其适用于端到端的策略学习，模型可直接从原始像素输入映射到关节控制指令，推动视觉伺服与行为克隆技术的进展。

解决学术问题

cook_pasta数据集有效应对了机器人模仿学习中数据稀缺与真实世界任务复杂性的挑战。它提供了长达93074帧的密集标注序列，涵盖单一家庭厨房任务的完整轨迹，这有助于解决高维观察空间下的动作预测问题，并促进跨模态表示学习的研究。通过整合多相机视角与状态信息，该数据集支持对时空一致性、任务分解及泛化能力等核心学术议题的探索，为具身智能在非结构化环境中的适应性提供了实证基础。

衍生相关工作

围绕cook_pasta数据集，已衍生出一系列专注于机器人视觉运动控制的经典研究。例如，利用其多模态数据训练深度预测模型，以增强机械臂在遮挡环境下的操作鲁棒性；亦有工作基于该数据集探索分层强化学习框架，将煮面任务分解为子技能序列。这些研究不仅拓展了数据集的学术价值，还催生了新的算法基准，促进了LeRobot等开源平台在社区中的广泛采纳与持续迭代。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集