behavior1k-task0008

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/fracapuano/behavior1k-task0008

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个由LeRobot创建的机器人数据集，包含200个episodes，总帧数为1788603。数据集结构包括RGB图像、深度图像、分割实例ID等多种观测数据，以及动作、时间戳等特征。所有数据以Parquet格式存储，视频数据以MP4格式存储。

创建时间：

2025-11-11

原始信息汇总

数据集概述

基本信息

数据集名称: behavior1k-task0008
许可证: Apache-2.0
任务类别: 机器人学
相关标签: LeRobot

数据集来源

使用LeRobot创建（https://github.com/huggingface/lerobot）

数据集结构

统计信息

总任务数: 1
总片段数: 200
总帧数: 1,788,603
总视频数: 1,800
帧率: 30 FPS
数据块大小: 10,000
数据文件大小: 100 MB
视频文件大小: 500 MB

数据分割

训练集: 0:10000

数据格式

数据文件格式: Parquet
视频文件格式: MP4
元信息文件格式: JSON
标注文件格式: JSON

特征描述

图像观察特征

左腕RGB图像: 480×480×3，30 FPS
右腕RGB图像: 480×480×3，30 FPS
头部RGB图像: 720×720×3，30 FPS
左腕深度图像: 480×480×3，30 FPS，深度图
右腕深度图像: 480×480×3，30 FPS，深度图
头部深度图像: 720×720×3，30 FPS，深度图
左腕实例分割图像: 480×480×3，30 FPS
右腕实例分割图像: 480×480×3，30 FPS
头部实例分割图像: 720×720×3，30 FPS

其他特征

动作: float32[23]，30 FPS
时间戳: float32[1]，30 FPS
片段索引: int64[1]，30 FPS
帧索引: int64[1]，30 FPS
任务索引: int64[1]，30 FPS
相机相对位姿: float32[21]，30 FPS
状态观察: float32[256]，30 FPS

机器人信息

机器人类型: R1Pro
代码库版本: v3.0

文件路径模式

数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
元信息文件: meta/episodes/task-{episode_chunk:04d}/episode_{episode_index:08d}.json
标注文件: annotations/task-{episode_chunk:04d}/episode_{episode_index:08d}.json

引用信息

论文: [More Information Needed]
主页: [More Information Needed]
BibTeX引用: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人技术领域，数据集的质量直接影响模型性能的可靠性。behavior1k-task0008数据集通过R1Pro机器人平台采集，涵盖200个完整任务片段，总计1788603帧数据，以30帧每秒的速率记录。数据采用分块存储策略，每个块包含10000帧，以Parquet格式保存，确保高效读取与处理。视频数据通过多视角摄像头（包括左腕、右腕和头部）同步捕获RGB、深度及实例分割图像，辅以机器人状态和动作向量，构建了全面的多模态交互记录。

使用方法

针对机器人行为克隆任务，该数据集可通过LeRobot框架进行高效加载。用户依据meta/info.json中的路径模板，按块索引读取Parquet数据文件，同时关联对应MP4格式视频流。训练集划分明确指向前10000个数据块，支持帧级随机访问或序列化采样。多模态字段可直接映射为观测-动作对，其中图像数据需解码为张量，与浮点型动作向量对齐。深度学习和强化学习模型可分别利用视觉特征与状态信息，实现端到端的策略学习。

背景与挑战

背景概述

在机器人技术领域，大规模行为数据集对于推动机器人学习算法的进步具有关键作用。behavior1k-task0008数据集作为LeRobot项目的重要组成部分，由HuggingFace团队基于R1Pro机器人平台构建，专注于多模态感知与动作执行的关联建模。该数据集通过整合头戴式与腕部摄像头的RGB图像、深度信息及实例分割数据，结合23维动作向量与256维状态观测，为机器人模仿学习研究提供了高精度时空序列基准。其200个任务片段与178万帧数据的规模，显著提升了机器人复杂环境交互行为的建模能力。

当前挑战

该数据集致力于解决机器人视觉动作联合建模的核心难题，其挑战体现在多传感器时空对齐的复杂性，以及高维动作空间与异构观测数据的耦合关系建模。构建过程中面临多视角视频流同步存储的技术瓶颈，需平衡480p与720p异分辨率数据的实时编码效率。深度图像与实例分割标签的精确标注需要克服传感器噪声干扰，而23维连续动作空间的规范化处理则涉及运动学约束与动态稳定性之间的权衡。

常用场景

经典使用场景

在机器人学习领域，behavior1k-task0008数据集为模仿学习算法提供了丰富的多模态演示数据。该数据集通过R1Pro机器人采集的200个任务片段，包含手腕和头部视角的RGB图像、深度信息及实例分割数据，为机器人行为克隆研究奠定了坚实基础。其30fps的高频采样特性能够精确捕捉连续动作序列，特别适用于端到端的策略网络训练。

解决学术问题

该数据集有效解决了机器人模仿学习中多传感器数据对齐与时空一致性建模的难题。通过提供同步采集的视觉观测与23维动作向量，研究人员能够深入探索从高维感知到低维控制的映射关系。其包含的相机相对位姿和状态观测数据，为研究机器人运动学约束下的行为预测提供了关键支持，显著推进了具身智能领域的发展。

实际应用

在工业自动化场景中，该数据集支撑的算法可应用于精密装配、物料分拣等复杂操作任务。基于多视角视觉数据的模仿学习模型能够适应真实环境中的光照变化和物体遮挡，提升机器人在非结构化环境中的操作鲁棒性。其深度信息和实例分割数据进一步促进了机器人对操作对象的精确识别与抓取规划。

数据集最近研究