behavior1k-task0023

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/fracapuano/behavior1k-task0023

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于机器人学的数据集，由LeRobot创建，并遵循Apache-2.0许可证。数据集包含200个剧集，共计4,845,500帧，涉及1个任务。数据集结构详细说明了各种特征及其相应的视频和图像信息，如尺寸、编解码器以及是否包含深度图或音频。数据被分为训练和测试集，具有数据、视频和元数据文件的具体路径。特征包括不同的观察图像、动作、时间戳和其他与机器人任务相关的信息。

This is a robotics dataset created by LeRobot, licensed under the Apache-2.0 license. It contains 200 episodes, totaling 4,845,500 frames, and covers one single task. The dataset structure elaborates on various features and their corresponding video and image information, such as dimensions, codecs, and whether depth maps or audio are included. The data is split into training and test sets, with specific paths provided for data, video, and metadata files. The features include diverse observation images, actions, timestamps, and other information relevant to the robotic task.

创建时间：

2025-11-11

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot
创建工具: LeRobot (https://github.com/huggingface/lerobot)

数据集规模

总任务数: 1
总情节数: 200
总帧数: 4,845,500
总视频数: 1,800
数据文件大小: 100 MB
视频文件大小: 500 MB

技术规格

机器人类型: R1Pro
帧率: 30 FPS
代码库版本: v3.0
分块大小: 10,000

数据结构

数据分割

训练集: 0:10000

文件路径格式

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
元信息路径: meta/episodes/task-{episode_chunk:04d}/episode_{episode_index:08d}.json
标注路径: annotations/task-{episode_chunk:04d}/episode_{episode_index:08d}.json

特征描述

图像观测特征

RGB图像

左腕摄像头: 480×480×3
右腕摄像头: 480×480×3
头部摄像头: 720×720×3

深度图像

左腕深度: 480×480×3
右腕深度: 480×480×3
头部深度: 720×720×3

实例分割图像

左腕实例分割: 480×480×3
右腕实例分割: 480×480×3
头部实例分割: 720×720×3

其他特征

动作: float32[23]
时间戳: float32[1]
情节索引: int64[1]
帧索引: int64[1]
任务索引: int64[1]
相机相对位姿: float32[21]
状态观测: float32[256]

视频编码信息

编码器: libx265
像素格式: yuv420p (RGB), yuv420p16le (深度)
音频: 无
深度图标识: 深度图像标记为深度图

搜集汇总

数据集介绍

构建方式

在机器人技术领域，高质量数据集的构建对算法训练至关重要。behavior1k-task0023数据集依托LeRobot平台开发，采用R1Pro型机器人采集数据，涵盖200个完整任务片段，总计484.55万帧图像。数据以分块形式存储，每块包含10000帧，通过多视角视觉传感器同步记录RGB图像、深度信息和实例分割数据，并以30帧/秒的采样率保存为Parquet格式，确保数据结构的完整性与时序一致性。

特点

该数据集在机器人感知研究领域展现出显著优势，其多模态特性体现在同时提供左腕、右腕及头部视角的480×480与720×720分辨率视觉数据。深度感知通道采用yuv420p16le像素格式精确记录三维空间信息，动作指令以23维浮点向量表征，并附带256维状态观测向量。数据组织采用分块索引机制，通过episode_index与frame_index实现精准时序定位，为模仿学习算法提供丰富的时空上下文信息。

使用方法

研究人员可通过解析meta/info.json中的数据结构定义加载数据集，利用预定义的data_path模板访问分块存储的Parquet文件。训练集划分依据splits字段指定范围，视频流数据可通过video_path模板匹配对应MP4文件。各类观测特征如RGB图像、深度图、实例分割标注及机器人状态数据均可通过特征字典键值直接调用，动作序列与时间戳的同步关系为行为克隆算法提供标准化输入接口。

背景与挑战

背景概述

在机器人技术迅猛发展的背景下，behavior1k-task0023数据集应运而生，作为LeRobot项目的重要组成部分。该数据集依托R1Pro机器人平台，采集了涵盖200个任务片段、超过484万帧的多模态数据，聚焦于复杂环境下的机器人行为学习与决策优化。通过整合头部与双腕视角的RGB图像、深度信息及实例分割数据，该资源为具身智能研究提供了高精度时空标注的行为轨迹，显著推动了机器人感知-行动闭环系统的理论探索与工程实践。

当前挑战

该数据集致力于解决机器人多模态感知与动作生成的协同挑战，其核心难点在于异构传感器数据的时空对齐与高维动作空间的精确建模。构建过程中面临多重技术壁垒：多视角视觉数据需实现像素级同步与标定，深度信息编码需平衡精度与存储效率，而23维连续动作空间的标注则要求克服动态场景下的动作边界模糊问题。海量视频流与状态数据的实时处理进一步对计算架构提出苛刻要求。

常用场景

经典使用场景

在机器人学习领域，behavior1k-task0023数据集以其多模态感知数据为特色，为模仿学习算法提供了丰富的训练基础。该数据集通过R1Pro机器人采集的200个任务片段，包含手腕与头部视角的RGB图像、深度信息及实例分割数据，结合23维动作向量，构建了完整的感知-动作映射关系。研究者可基于这些时序数据训练端到端策略网络，使机器人能够从视觉观察中直接生成精细动作指令，推动具身智能在复杂环境中的行为泛化能力。

衍生相关工作

以该数据集为基石，衍生出多项机器人感知与控制融合的创新研究。例如基于时空注意力机制的行为预测模型，通过联合解析多视角视频序列与动作流，实现了长时程任务的分层决策。另有工作利用其丰富的分割标注开发了物体中心表征网络，将实例语义信息嵌入策略学习过程，推动了场景理解与动作生成的协同进化，为后续大规模行为数据集构建建立了技术范式。

数据集最近研究