behavior1k-task0006

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/fracapuano/behavior1k-task0006

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个与机器人学相关的数据集，使用LeRobot创建。它包含了200个总剧集，超过150万帧，以及1个总任务。数据集的结构详细描述了不同身体部位的视频和深度数据，以及动作、时间戳和其他相关信息。数据集的许可为Apache-2.0。

This is a robotics-related dataset created with LeRobot. It contains 200 total episodes, over 1.5 million frames, and 1 overall task. The dataset structure details video and depth data for different body parts, along with actions, timestamps and other relevant information. The dataset is licensed under Apache-2.0.

创建时间：

2025-11-11

原始信息汇总

数据集概述

基本信息

数据集名称: behavior1k-task0006
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot
创建工具: LeRobot (https://github.com/huggingface/lerobot)

数据集结构

统计信息

总任务数: 1
总片段数: 200
总帧数: 1,523,945
总视频数: 1,800
帧率: 30 FPS
分块大小: 10,000
数据文件大小: 100 MB
视频文件大小: 500 MB

数据分割

训练集: 0:10000

数据特征

图像观察数据

左腕RGB图像: 480×480×3，视频格式，30 FPS
右腕RGB图像: 480×480×3，视频格式，30 FPS
头部RGB图像: 720×720×3，视频格式，30 FPS
左腕深度图像: 480×480×3，深度图，30 FPS
右腕深度图像: 480×480×3，深度图，30 FPS
头部深度图像: 720×720×3，深度图，30 FPS
左腕实例分割: 480×480×3，视频格式，30 FPS
右腕实例分割: 480×480×3，视频格式，30 FPS
头部实例分割: 720×720×3，视频格式，30 FPS

其他特征

动作: float32[23]，30 FPS
时间戳: float32[1]，30 FPS
片段索引: int64[1]，30 FPS
帧索引: int64[1]，30 FPS
任务索引: int64[1]，30 FPS
相机相对位姿: float32[21]，30 FPS
状态观察: float32[256]，30 FPS

文件结构

数据文件路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
元信息路径: meta/episodes/task-{episode_chunk:04d}/episode_{episode_index:08d}.json
标注路径: annotations/task-{episode_chunk:04d}/episode_{episode_index:08d}.json

技术规格

代码库版本: v3.0
机器人类型: R1Pro
视频编码: libx265
像素格式: yuv420p (RGB), yuv420p16le (深度图)

搜集汇总

数据集介绍

构建方式

在机器人技术领域，行为数据集通常通过实际交互环境采集，本数据集采用R1Pro机器人平台，在LeRobot框架支持下系统记录多模态感知数据。数据采集过程涵盖200个完整任务片段，以30帧每秒的速率捕获超过150万帧信息，通过分块存储机制将原始数据组织为Parquet格式文件，并辅以视频流与元数据分离的存储架构，确保数据的高效访问与完整性。

特点

该数据集显著特点在于其丰富的多模态观测能力，提供来自头部及双腕视角的RGB图像、深度图及实例分割信息，分辨率分别达到720×720与480×480像素。动作空间涵盖23维连续控制指令，同时集成256维状态向量与21维相机相对位姿等机器人内部感知数据，这种多维度的数据融合为复杂任务的行为模仿学习提供了全面支撑。

使用方法

研究人员可通过LeRobot生态工具链直接加载数据，利用预定义的数据路径模板访问分块存储的Parquet文件与对应视频流。数据集已预设训练集划分，支持按时间戳索引快速检索连续帧序列，其标准化的特征字段设计便于直接接入主流强化学习框架，为机器人行为克隆、多传感器融合等研究提供即用型数据基础。

背景与挑战

背景概述

机器人学习领域正经历从仿真环境向真实世界部署的关键转型，behavior1k-task0006数据集作为LeRobot项目的重要组成部分，聚焦于多模态行为数据的采集与分析。该数据集采用R1Pro型机器人平台，通过头戴式及腕部传感器同步记录RGB图像、深度信息与实例分割数据，构建包含152万帧动作序列的大规模行为数据库。其核心研究目标在于解决机器人操作任务中的感知-动作闭环难题，为模仿学习与强化学习算法提供真实世界的训练基准，推动具身智能系统在复杂环境中的自适应能力发展。

当前挑战

该数据集致力于攻克机器人操作任务中动作序列建模与多传感器融合的核心难题，其构建过程面临多重技术挑战。多视角视觉数据的时间对齐需要精确的时钟同步机制，不同模态传感器数据的空间标定存在累积误差风险。海量视频数据的实时存储与处理对计算架构提出严格要求，23维连续动作空间的标注工作需保持时序一致性。深度图像与实例分割数据的联合标注需解决语义鸿沟问题，而跨场景行为模式的泛化能力则考验数据分布的多样性设计。

常用场景

经典使用场景

在机器人学习领域，behavior1k-task0006数据集通过多视角视觉与动作序列的同步记录，为模仿学习算法提供了丰富的训练素材。其包含的RGB图像、深度信息及实例分割数据，能够有效支持机器人从人类演示中提取操作策略，尤其在复杂环境下的抓取与操纵任务中展现出重要价值。

实际应用

基于R1Pro机器人平台采集的真实操作数据，该数据集可直接应用于工业分拣、精密装配等场景的自动化改造。其手腕与头部视角的互补视觉信息，能够支撑开发适应动态环境的抓取系统，为服务机器人、医疗辅助设备等领域的技能部署提供可靠数据支撑。

衍生相关工作

该数据集已催生系列基于Transformer的跨模态预训练研究，例如结合视觉-动作对标的策略蒸馏方法。其标准化的数据格式与LeRobot生态的深度集成，进一步推动了分层强化学习、多任务策略网络等方向的发展，形成机器人学习领域的重要基准体系。

以上内容由遇见数据集搜集并总结生成