behavior1k-task0011

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/fracapuano/behavior1k-task0011

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于机器人的数据集，包含了200个剧集，共计2190686帧，专注于1个任务。数据集提供了RGB图像、深度图像、实例分割图像等多种类型的观察数据，以及动作、时间戳、相机相对位置、状态等特征。数据集以Apache-2.0许可证发布。

创建时间：

2025-11-11

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人技术
标签: LeRobot
代码库版本: v3.0

数据规模

总任务数: 1
总片段数: 200
总帧数: 2,190,686
总视频数: 1,800
数据文件大小: 100 MB
视频文件大小: 500 MB

技术规格

帧率: 30 FPS
块大小: 10,000
机器人类型: R1Pro

数据结构

数据文件路径

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
元信息路径: meta/episodes/task-{episode_chunk:04d}/episode_{episode_index:08d}.json
标注路径: annotations/task-{episode_chunk:04d}/episode_{episode_index:08d}.json

数据分割

训练集: 0:10000

特征描述

图像观测数据

RGB图像

左腕摄像头: 480×480×3
右腕摄像头: 480×480×3
头部摄像头: 720×720×3

深度图像

左腕深度: 480×480×3
右腕深度: 480×480×3
头部深度: 720×720×3

实例分割图像

左腕分割: 480×480×3
右腕分割: 480×480×3
头部分割: 720×720×3

其他特征

动作: float32[23]
时间戳: float32[1]
片段索引: int64[1]
帧索引: int64[1]
任务索引: int64[1]
相机相对位姿: float32[21]
状态观测: float32[256]

视频编码信息

编码器: libx265
像素格式: yuv420p (RGB), yuv420p16le (深度)
音频: 无
深度图: 深度图像标记为深度图

搜集汇总

数据集介绍

构建方式

在机器人技术领域，高质量的数据集对于推动智能体行为学习至关重要。behavior1k-task0011数据集依托LeRobot平台构建，采用R1Pro型机器人采集了200个完整任务片段，总计219万帧数据。数据以每块10000帧的规模组织成Parquet格式文件，同时配套存储了多视角视频流，帧率稳定在30fps。原始观测数据涵盖头部及双腕的RGB图像、深度图与实例分割信息，动作空间则封装为23维浮点向量，所有时序数据均带有精确的时间戳标记。

特点

该数据集在机器人感知与控制研究中展现出鲜明的多模态特性。视觉通道提供三种不同分辨率的同步影像：头部摄像头采集720p高清画面，双腕摄像头则捕获480p局部细节。深度感知层面创新地采用16位编码的深度视频流，有效保留了三维空间信息。动作表征采用23自由度控制指令，与256维状态观测向量共同构成完整的闭环交互记录。数据集通过实例分割标签实现了像素级物体识别，为精细操作任务提供了丰富的语义基础。

使用方法

研究人员可通过标准数据加载流程调用该数据集，主要数据存储在data目录下的Parquet文件中。训练集划分明确指向前10000个数据块，视频资源按chunk索引组织于videos路径。元数据文件详细记载每个任务片段的设备参数与传感器标定信息，注释文件则包含动作序列的语义标注。使用者可借助特征字典中定义的张量结构，直接提取多模态观测数据与对应动作标签，适用于行为克隆、强化学习等机器人学习算法的训练与验证。

背景与挑战

背景概述

机器人学习领域近年来致力于通过大规模行为数据集推动具身智能发展。behavior1k-task0011作为LeRobot项目构建的机器人操作数据集，采用R1Pro机器人平台采集多模态交互数据，包含200个任务片段与219万帧高精度传感器记录。该数据集通过头戴式与腕部摄像头同步采集RGB图像、深度信息及实例分割数据，配合23维动作向量与256维状态观测，为模仿学习与策略泛化研究提供结构化基准。

当前挑战

机器人操作数据集需解决高维动作空间中的时序一致性建模难题，其23维连续动作与多视角视觉观测的异构对齐构成核心挑战。构建过程中面临多传感器时空标定精度保障、长达219万帧数据的存储效率优化，以及实例分割标注在动态场景中的语义连续性维护等技术瓶颈。海量视频数据压缩时需平衡视觉质量与存储开销，深度图像与RGB数据的跨模态融合亦对计算架构提出更高要求。

常用场景

经典使用场景

在机器人学习领域，behavior1k-task0011数据集通过R1Pro机器人采集的多视角视觉与动作序列，为模仿学习算法提供了丰富的训练素材。其包含的219万帧高分辨率RGB图像、深度图及实例分割数据，配合23维连续动作空间，能够有效支撑端到端策略网络的训练过程。该数据集以30Hz同步记录头部与双腕视角的传感器数据，为研究复杂操作任务中的时空一致性建模奠定了坚实基础。

衍生相关工作

基于该数据集的特性，学界已衍生出多模态表征学习框架与分层强化学习方法。部分研究利用其丰富的实例分割标签开发了物体感知的操纵策略，另有工作结合时序卷积网络与自注意力机制，实现了长程任务的动作序列生成。这些成果不仅推动了机器人操作技能的泛化能力，也为跨任务知识迁移提供了新的技术路径。

数据集最近研究