autmoate/coffee_task_by_task_1_and_2_merged

Name: autmoate/coffee_task_by_task_1_and_2_merged
Creator: autmoate
Published: 2026-05-01 10:36:56
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/autmoate/coffee_task_by_task_1_and_2_merged

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用LeRobot创建的机器人领域数据集，包含135个片段，总计63704帧，涉及2个任务。数据集包含机器人的动作数据（如肩部、肘部、腕部等关节位置）、观测状态数据（与动作数据相同）以及来自顶部、侧面和腕部三个视角的图像视频数据（分辨率720x1280，30fps）。数据以parquet格式存储，视频以mp4格式存储。数据集采用Apache 2.0许可证。

This dataset was created using LeRobot for robotics applications. It contains 135 episodes with a total of 63,704 frames across 2 tasks. The dataset includes robot action data (e.g., positions of shoulder, elbow, wrist joints), observation state data (same as action data), and image/video data from three perspectives (top, side, wrist) with 720x1280 resolution at 30fps. Data is stored in parquet format while videos are in mp4 format. The dataset is licensed under Apache 2.0.

提供机构：

autmoate

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集是推动策略泛化与鲁棒性的基石。coffee_task_by_task_1_and_2_merged 数据集基于 LeRobot 框架构建，整合了来自两台咖啡制作任务的操作数据。该数据集包含 135 个完整演示片段，共计 63,704 帧画面，覆盖两项不同的子任务。数据以 30 帧/秒的速率从 SO_Follower 机器人上采集，并使用 Parquet 格式存储结构化的动作与状态信息，同时通过 H.264 编码的 MP4 视频文件记录来自顶部、侧面和腕部三个视角的高清视觉观测，分辨率为 720p。整个数据集被划分为训练集，并按照分块索引进行组织，确保了数据加载的高效性与可扩展性。

特点

该数据集最显著的特点在于其多模态融合的深度与广度。它不仅提供了 6 维连续动作空间（包括肩部、肘部、腕部及夹爪的自由度）以及同步的机器人关节状态，还同步采集了三个独立视角的 RGB 视频流，为视觉-运动策略的学习提供了丰富的时空上下文。数据集内嵌了精确的时间戳、帧索引与任务索引，使得开发者能够轻松对齐不同模态的数据。此外，其统一的 Apache-2.0 许可证与 LeRobot 标准化的元数据结构，极大降低了模型训练与数据预处理的门槛，尤其适合用于模仿学习与行为克隆等算法的验证与评测。

使用方法

在使用本数据集时，推荐通过 LeRobot 库进行加载与处理。用户可以直接调用 LeRobot 的数据集接口，按需读取 Parquet 文件中的动作与状态序列，并流式加载对应的高清视频帧。由于数据集已预先划分为训练集并定义了清晰的 chunk 结构，研究人员可以便捷地实现批处理与数据增强。对于策略训练，可将 action 字段作为目标输出，observation.state 与 observation.images 作为输入，构建端到端的决策模型。此外，通过 task_index 字段可以轻松区分两项子任务，便于进行多任务学习或任务条件化策略的迁移实验。

背景与挑战

背景概述

在机器人学习领域，构建高质量、多任务示范数据集是推动具身智能体从感知到动作映射能力提升的关键。coffee_task_by_task_1_and_2_merged 数据集由 Autmoate 团队基于 LeRobot 框架创建，专注于机器人操作任务的学习与复现。该数据集整合了两个子任务（task 1 与 task 2），共包含 135 个演示回合、超过 6.3 万帧高分辨率视频与动作状态序列，采用 SO_Follower 机械臂作为执行平台，并配备顶视、侧视与腕部三路高清摄像头，以 720×1280 分辨率、30 FPS 的帧率记录操作过程。该数据集的核心研究问题在于探索多任务机器人示范学习的泛化性与数据效率，通过对连续动作与视觉观察的联合建模，为模仿学习与离线强化学习提供标准化的基准资源，对推动家庭服务等精细操作场景的算法发展具有重要意义。

当前挑战

当前该数据集所涉及的领域挑战主要集中于多任务机器人操作学习的泛化瓶颈：两个子任务之间的动作模式与视觉背景差异对算法跨任务迁移能力构成严峻考验，如何在有限示范数据（135 回合）中提取不变特征并抑制过拟合是核心问题。在构建层面，挑战体现在数据采集的一致性与完整性上——机械臂 6 自由度动作序列的精确标定、三路视频流与状态信息的时间同步、以及不同光照或视角变化下视频质量的稳定性均需严格控制。此外，数据格式采用 Parquet 分块存储与 H.264 编码视频，对后续高效加载与实时重放提出工程要求，而 Apache-2.0 许可虽利于开放共享，但缺乏统一的任务标注规范也使领域内跨数据集比较面临障碍。

常用场景

经典使用场景

在机器人操作与模仿学习领域，coffee_task_by_task_1_and_2_merged数据集因其精细化的任务拆解与多视角视觉观测的融合，成为训练机器人执行复杂装配或操作任务的经典基准。该数据集涵盖135个完整演示回合，累计超过六万帧高帧率数据，通过顶部、侧面及腕部三组摄像头捕捉720p高清视频，并记录六维关节状态与动作序列。研究者常将其用于构建从视觉输入到低层控制指令的端到端策略模型，尤其在需要分阶段完成子任务的场景中，该数据集示范了如何利用任务索引实现多任务学习与迁移，为机器人自主操作提供了可靠的训练基石。

衍生相关工作

围绕该数据集衍生了一系列具有代表性的研究工作。学术界基于其任务索引与多模态融合特性，发展了诸如基于扩散策略的轨迹生成模型，以及通过对比学习增强视觉表征的模仿学习方法。部分工作利用数据集中的时序结构，开创了子目标条件化策略的分层强化学习框架，并通过任务迁移验证了泛化能力。工业界则以此数据为蓝本，扩展出包含触觉反馈或力控制信号的改进版本，用于训练机器人适应非结构化环境。这些衍生工作共同推动了“从示范中学习”这一范式向更高样本效率与更强鲁棒性的方向演进。

数据集最近研究