behavior1k-task0034

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/fracapuano/behavior1k-task0034

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于机器人技术的数据集，包含了200个剧集，共478034帧，1个任务。数据集提供了多种图像和深度信息，包括左右手腕和头部的RGB图像、深度图和实例分割图。此外，数据集还包含了动作、时间戳、相机相对位置和状态等信息。数据集的视频帧率为30fps，且没有音频。

This is a robotics dataset consisting of 200 episodes, totaling 478,034 frames, and focusing on one single task. The dataset provides various types of image and depth information, including RGB images, depth maps and instance segmentation masks from the left wrist, right wrist and head cameras. Additionally, it also contains action data, timestamps, relative camera positions and camera states, along with other relevant information. The video frame rate of the dataset is 30fps, and no audio is included.

创建时间：

2025-11-11

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot
代码库版本: v3.0
机器人类型: R1Pro

数据集规模

总任务数: 1
总情节数: 200
总帧数: 478,034
总视频数: 1,800
数据文件大小: 100 MB
视频文件大小: 500 MB

技术规格

帧率: 30 FPS
分块大小: 10,000
训练集划分: 0:10000

数据特征

图像观测数据

RGB图像:

左腕摄像头: 480×480×3
右腕摄像头: 480×480×3
头部摄像头: 720×720×3

深度图像:

左腕深度: 480×480×3
右腕深度: 480×480×3
头部深度: 720×720×3

实例分割图像:

左腕分割: 480×480×3
右腕分割: 480×480×3
头部分割: 720×720×3

其他特征

动作: float32[23]
时间戳: float32[1]
状态观测: float32[256]
相机相对位姿: float32[21]
情节索引: int64[1]
帧索引: int64[1]
任务索引: int64[1]
索引: int64[1]

文件结构

数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
元信息文件: meta/episodes/task-{episode_chunk:04d}/episode_{episode_index:08d}.json
标注文件: annotations/task-{episode_chunk:04d}/episode_{episode_index:08d}.json

创建信息

创建工具: LeRobot
主页: 信息缺失
论文: 信息缺失
引用: 信息缺失

搜集汇总

数据集介绍

构建方式

在机器人技术领域，行为数据集的构建对算法训练至关重要。该数据集通过R1Pro机器人平台采集，包含200个完整任务片段，总计478,034帧数据，以30帧每秒的速率记录。数据采用分块存储策略，每块包含10,000个数据点，并以Parquet格式保存，确保高效存取与处理。多视角视觉信息通过头部及左右腕部摄像头同步捕获，涵盖RGB图像、深度图及实例分割数据，为机器人行为学习提供丰富感知基础。

特点

该数据集在机器人行为建模领域展现出显著的多模态特性。其视觉观测数据包含三种不同视角的同步影像：头部摄像头提供720×720分辨率的RGB与深度信息，腕部摄像头则以480×480分辨率捕捉精细操作场景。动作空间采用23维浮点向量表征机器人控制指令，配合256维状态观测向量及21维相机位姿数据，构建出完整的感知-动作闭环。数据以时间戳精确对齐，支持时序行为分析的深入研究。

使用方法

针对机器人学习任务的应用需求，该数据集提供标准化的调用接口。通过LeRobot代码库可加载经过预处理的训练集，数据路径遵循'data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet'的命名规范。研究者可依据元数据文件中的片段索引提取特定任务序列，结合视频文件与标注信息进行联合分析。数据集采用Apache 2.0许可协议，支持学术研究与商业开发中的灵活使用。

背景与挑战

背景概述

作为机器人学习领域的重要数据资源，behavior1k-task0034数据集依托LeRobot开源框架构建，专为复杂环境下的机器人行为模仿学习设计。该数据集采用R1Pro型机器人平台，通过多视角视觉感知系统记录操作任务，涵盖200个完整交互序列与47万余帧时空数据。其创新性体现在融合了头部与双腕部的RGB-D视觉流、实例分割信息及关节状态数据，为机器人动作策略的端到端学习提供了高维度的多模态基准。

当前挑战

该数据集致力于解决机器人视觉运动控制中的动作泛化难题，需克服动态环境中视觉特征与运动轨迹的复杂映射关系。构建过程中面临多传感器时序同步、大规模视频数据压缩存储等技术瓶颈，同时需保证23维连续动作空间与480p/720p多分辨率视觉数据的对齐精度。海量实例标注数据的质量控制与跨模态数据一致性校验亦构成显著挑战。

常用场景

经典使用场景

在机器人学习领域，该数据集通过多视角视觉感知与动作序列的同步记录，为模仿学习算法提供了丰富的训练素材。其包含的头部及双腕部RGB图像、深度信息及实例分割数据，配合23维动作向量，能够有效支撑端到端策略网络的训练过程，尤其适用于复杂环境下的精细操作任务。

解决学术问题

该数据集显著缓解了机器人视觉运动控制研究中真实世界数据稀缺的困境。通过提供大规模结构化演示数据，它助力研究者突破仿真到现实迁移的瓶颈，为多模态感知融合、长时序动作预测等核心问题提供验证基准，推动具身智能在三维空间理解与操作能力方面的理论进展。

衍生相关工作

该数据集的发布催生了系列基于Transformer的跨模态预训练研究，例如时空注意力机制在动作生成中的创新应用。后续工作通过提取其多视角视频特征构建行为语义图谱，衍生出层次化模仿学习框架与元强化学习算法，显著提升了机器人对新任务的泛化能力。

以上内容由遇见数据集搜集并总结生成