behavior1k-task0013

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/fracapuano/behavior1k-task0013

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个与机器人学相关的数据集，使用LeRobot创建。数据集包含200个总剧集，3845274个总帧数，1个总任务。数据集的结构包括多种类型的图像（RGB、深度、实例分割），动作，时间戳等。所有视频的帧率均为30fps，且没有音频。数据以Parquet文件格式存储，视频以MP4格式存储。

创建时间：

2025-11-11

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot
代码库版本: v3.0

数据集规模

总任务数: 1
总片段数: 200
总帧数: 3,845,274
总视频数: 1,800
数据文件大小: 100 MB
视频文件大小: 500 MB

技术规格

帧率: 30 FPS
块大小: 10,000
机器人类型: R1Pro

数据结构

数据文件路径

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
元信息路径: meta/episodes/task-{episode_chunk:04d}/episode_{episode_index:08d}.json
标注路径: annotations/task-{episode_chunk:04d}/episode_{episode_index:08d}.json

数据划分

训练集: 0:10000

特征说明

图像观察特征

左腕RGB图像: 480×480×3, 视频格式, 30 FPS
右腕RGB图像: 480×480×3, 视频格式, 30 FPS
头部RGB图像: 720×720×3, 视频格式, 30 FPS
左腕深度图像: 480×480×3, 深度图, 视频格式, 30 FPS
右腕深度图像: 480×480×3, 深度图, 视频格式, 30 FPS
头部深度图像: 720×720×3, 深度图, 视频格式, 30 FPS
左腕实例分割: 480×480×3, 视频格式, 30 FPS
右腕实例分割: 480×480×3, 视频格式, 30 FPS
头部实例分割: 720×720×3, 视频格式, 30 FPS

其他特征

动作: float32, 23维, 30 FPS
时间戳: float32, 1维, 30 FPS
片段索引: int64, 1维, 30 FPS
索引: int64, 1维, 30 FPS
相机相对位姿: float32, 21维, 30 FPS
状态观察: float32, 256维, 30 FPS
帧索引: int64, 1维, 30 FPS
任务索引: int64, 1维, 30 FPS

创建信息

创建工具: LeRobot (https://github.com/huggingface/lerobot)

搜集汇总

数据集介绍

构建方式

在机器人技术领域，行为数据集的构建对算法训练至关重要。behavior1k-task0013数据集通过R1Pro机器人平台采集，涵盖200个完整任务片段，总计384万帧数据，以30帧/秒的速率记录。数据采用分块存储机制，每块包含10000个样本，以Parquet格式保存观测数据，同时配套存储MP4格式的多视角视频。数据采集系统同步记录机器人左腕、右腕及头部视角的RGB图像、深度图及实例分割信息，并整合23维动作向量与256维状态特征，形成多模态时序数据集。

使用方法

针对机器人学习研究需求，该数据集采用标准化加载流程。通过LeRobot代码库可直接解析数据块路径模板，按chunk索引加载Parquet文件。训练集划分明确对应前10000个样本，研究者可调用视频路径模板提取多视角视觉流，结合动作、状态及时间戳等标量字段进行联合训练。数据接口支持帧级随机访问与序列批量读取，深度图采用yuv420p16le像素格式存储真实深度值，实例分割数据为物体级交互分析提供支撑，适用于模仿学习、强化学习等多种算法验证。

背景与挑战

背景概述

在机器人学习领域，多模态感知与行为决策的集成始终是核心研究课题。behavior1k-task0013数据集作为LeRobot项目的重要组成部分，依托R1Pro机器人平台采集了涵盖200个任务片段、384万帧的多模态交互数据。该数据集通过头戴式与腕部摄像头同步记录RGB图像、深度信息及实例分割数据，结合23维动作向量与256维状态观测，为机器人模仿学习与行为克隆研究提供了高精度时空对齐的基准数据。其结构化存储方案与标准化元数据体系，显著推动了机器人学习数据生态的规范化进程。

当前挑战

机器人行为数据集构建面临感知异构性与动作空间建模的双重挑战。多视角视觉数据需实现毫米级时间同步与空间标定，深度图像与实例分割的像素级对齐对编码压缩算法提出极高要求。高维连续动作空间的时序建模需平衡数据维度与物理约束，23维动作向量的动力学合理性验证成为关键瓶颈。数据规模扩张伴随存储效率问题，原始视频数据与特征数据的协同管理需开发新型混合存储架构，30帧率下的长时序行为建模对计算内存与训练稳定性构成持续压力。

常用场景

解决学术问题

该数据集有效解决了机器人模仿学习中样本效率低下的核心难题。通过提供大规模、高质量的真实世界交互数据，显著降低了策略学习对仿真环境的依赖。其精心设计的时序对齐机制与多模态特征融合架构，为研究跨模态表示学习提供了坚实基础。数据集涵盖的丰富场景变化与动作多样性，使得训练出的策略具备更强的泛化能力，推动了从监督学习到强化学习的平滑过渡。

实际应用

在工业自动化与家庭服务机器人领域，该数据集支撑的技术已显现巨大应用潜力。基于此数据集训练的模型可部署于物体抓取、精细操作等实际任务中，显著提升机器人的环境适应性与任务完成率。其多视角视觉系统特别适用于复杂环境下的物体定位与姿态估计，为智能制造、物流分拣等场景提供了可靠的技术方案。数据集中包含的深度信息更进一步增强了机器人在非结构化环境中的操作安全性。

数据集最近研究