behavior1k-task0026

Hugging Face2025-11-17 更新2025-11-18 收录

下载链接：

https://huggingface.co/datasets/fracapuano/behavior1k-task0026

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot创建，包含了机器人执行任务时的视频和图像数据。数据集采用Apache-2.0许可证。数据结构详细描述了视频、图像和注释的格式，包括来自左手腕、右手腕和头部的RGB和深度图像，动作，时间戳，相机相对姿态等信息。数据集被划分为训练数据，并提供了数据和视频文件的具体路径。数据集的大小以兆字节为单位给出，同时提供了视频的总数。README中还包含了主页、论文和BibTeX引用的占位符，标记为'需要更多信息'.

创建时间：

2025-11-12

原始信息汇总

数据集概述

基本信息

许可证: apache-2.0
任务类别: 机器人技术
标签: LeRobot
代码库版本: v3.0
机器人类型: R1Pro

数据集规模

总任务数: 1
总片段数: 200
总帧数: 5212011
总视频数: 1800
数据文件大小: 100 MB
视频文件大小: 500 MB
帧率: 30 fps
分块大小: 10000

数据划分

训练集: 0:10000

数据结构

数据文件路径

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
元信息路径: meta/episodes/task-{episode_chunk:04d}/episode_{episode_index:08d}.json
标注路径: annotations/task-{episode_chunk:04d}/episode_{episode_index:08d}.json

特征描述

图像观测数据

左腕RGB图像: 480×480×3，视频格式，30 fps
右腕RGB图像: 480×480×3，视频格式，30 fps
头部RGB图像: 720×720×3，视频格式，30 fps
左腕深度图像: 480×480×3，深度图，视频格式，30 fps
右腕深度图像: 480×480×3，深度图，视频格式，30 fps
头部深度图像: 720×720×3，深度图，视频格式，30 fps
左腕实例分割: 480×480×3，视频格式，30 fps
右腕实例分割: 480×480×3，视频格式，30 fps
头部实例分割: 720×720×3，视频格式，30 fps

其他特征

动作: float32[23]，30 fps
时间戳: float32[1]，30 fps
片段索引: int64[1]，30 fps
帧索引: int64[1]，30 fps
任务索引: int64[1]，30 fps
相机相对位姿: float32[21]，30 fps
状态观测: float32[256]，30 fps

视频编码信息

视频编解码器: libx265
像素格式: yuv420p（RGB图像）/ yuv420p16le（深度图像）
音频: 无
深度图标识: 深度图像标记为深度图

搜集汇总

数据集介绍

构建方式

在机器人技术领域，高质量的数据集对于推动智能体行为学习至关重要。behavior1k-task0026数据集依托LeRobot平台构建，采用R1Pro型机器人采集了200个完整任务片段，总计超过521万帧数据。数据以分块形式存储，每块包含10000帧，采样频率为30赫兹，通过多视角视觉传感器同步记录RGB图像、深度信息和实例分割数据，并以Parquet格式高效组织，确保了数据的完整性与可扩展性。

特点

该数据集在机器人感知与操控研究中展现出显著的多模态特性。其核心优势在于同步提供了头部及双腕视角的480×480与720×720分辨率视觉流，涵盖RGB、深度感知及实例分割三维数据通道。动作空间以23维浮点向量精确表征机器人运动轨迹，辅以256维状态观测向量及21维相机位姿参数。数据集采用H.265编码压缩技术，在保持视觉保真度的同时显著优化存储效率，为模仿学习与强化学习算法提供了丰富的时空关联特征。

使用方法

针对机器人行为克隆研究需求，该数据集通过标准化接口支持端到端训练流程。研究者可通过解析meta/info.json获取数据结构元信息，利用分块索引机制加载指定任务片段。训练集划分明确指向前10000个数据块，视频流与传感器数据通过预设路径模板动态映射。开发者可分别调用observation字段下的多模态视觉特征与action动作序列，结合时间戳与帧索引构建时空对齐的样本对，为行为预测模型提供连续决策轨迹的监督信号。

背景与挑战

背景概述

在机器人学习领域，大规模行为数据集对推动机器人自主决策能力发展具有关键意义。behavior1k-task0026作为LeRobot项目框架下构建的机器人操作数据集，依托R1Pro机器人平台采集多模态感知数据，其核心研究聚焦于复杂环境下的机器人动作序列建模与泛化能力提升。该数据集通过整合手腕与头部视角的RGB图像、深度信息及实例分割数据，为模仿学习与强化学习算法提供了丰富的训练素材，显著促进了机器人感知-行动闭环系统的研究进展。

当前挑战

该数据集致力于解决机器人动作预测与执行中的多模态感知融合难题，其核心挑战在于异构传感器数据的时空对齐与高维动作空间的精确建模。构建过程中面临数据同步复杂性，需协调六路视频流与23维动作向量的实时采集；同时海量存储需求成为瓶颈，原始视频数据达500GB规模，对压缩算法与存储架构提出严峻考验。此外，实例分割标注的语义一致性维护与跨视角数据标定误差消除，进一步增加了数据集构建的技术复杂度。

常用场景

经典使用场景

在机器人学习领域，behavior1k-task0026数据集以其丰富的多模态感知数据成为模仿学习研究的经典资源。该数据集通过R1Pro机器人采集的200个任务片段，包含手腕与头部视角的RGB图像、深度信息及实例分割数据，为构建端到端行为克隆模型提供了标准化训练素材。研究人员可基于30fps的高频时序数据，解析机器人动作与视觉观察间的映射关系，推动动态环境下的技能迁移研究。

衍生相关工作

以LeRobot框架为基础，该数据集催生了系列里程碑研究。基于其多模态特性发展的跨视角注意力网络，实现了机器人动作预测的精度突破。部分团队利用时序建模技术，构建了具有长期规划能力的分层强化学习架构。在元学习方向，研究者通过任务泛化实验验证了跨场景技能迁移的可行性，为构建通用机器人操作模型奠定了数据基石。

数据集最近研究