behavior1k-task0007

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/fracapuano/behavior1k-task0007

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于机器人学的数据集，使用LeRobot创建。数据集包含200个剧集，总共有3778110帧，1个任务。数据集的结构包括多种视频和图像特征，如RGB图像、深度图像和分割实例ID图像。每个视频的帧率为30fps。具体的数据集描述和引用信息未在README文件中提供。

创建时间：

2025-11-11

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot
创建工具: LeRobot

数据集结构

元数据

代码库版本: v3.0
机器人类型: R1Pro
总任务数: 1
总片段数: 200
总帧数: 3,778,110
块大小: 10,000
帧率: 30 FPS

数据规模

数据文件大小: 100 MB
视频文件大小: 500 MB
总视频数: 1,800

数据特征

图像观察数据

左腕RGB图像: 480×480×3，视频格式
右腕RGB图像: 480×480×3，视频格式
头部RGB图像: 720×720×3，视频格式
左腕深度图像: 480×480×3，深度图
右腕深度图像: 480×480×3，深度图
头部深度图像: 720×720×3，深度图
左腕实例分割图像: 480×480×3，视频格式
右腕实例分割图像: 480×480×3，视频格式
头部实例分割图像: 720×720×3，视频格式

其他特征

动作: float32[23]，30 FPS
时间戳: float32[1]，30 FPS
片段索引: int64[1]，30 FPS
帧索引: int64[1]，30 FPS
任务索引: int64[1]，30 FPS
相机相对位姿: float32[21]，30 FPS
状态观察: float32[256]，30 FPS

数据组织

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
元信息路径: meta/episodes/task-{episode_chunk:04d}/episode_{episode_index:08d}.json
标注路径: annotations/task-{episode_chunk:04d}/episode_{episode_index:08d}.json

数据划分

训练集: 0:10000

引用信息

主页: 待补充
论文: 待补充
BibTeX引用: 待补充

搜集汇总

数据集介绍

构建方式

在机器人技术领域，数据集的构建往往依赖于实际硬件平台的实时采集。本数据集通过R1Pro型机器人系统，以30帧每秒的采样频率记录了200个完整任务片段，累计生成377.8万帧多维观测数据。数据采用分块存储架构，将视频流与传感器读数分别保存在parquet格式文件中，并通过标准化元数据文件维护任务片段的结构化信息。这种构建方式既保证了数据的时空连续性，又实现了高效存储与快速检索的平衡。

特点

该数据集最显著的特征在于其多模态数据融合架构，同步采集了头戴式与双腕部摄像头的RGB视频、深度图及实例分割图像，形成了九路并行视觉数据流。所有视觉数据均采用H.265编码压缩，其中RGB图像分辨率为480×480与720×720双规格，深度图则采用16位精度存储。配合23维动作向量、256维状态观测及21维相机位姿等结构化数据，构建出涵盖视觉感知与运动控制的完整机器人交互记录。这种多维异构数据的同步对齐，为具身智能研究提供了丰富的实验素材。

使用方法

研究人员可通过LeRobot代码库提供的标准数据加载接口访问本数据集，其分块存储设计支持流式读取与随机采样。数据集按任务索引组织，每个episode包含连续帧序列及对应动作标签，用户可根据frame_index实现精确帧级定位。对于视觉模态分析，可直接调用video_path获取MP4格式视频流；而结构化数据则通过data_path读取parquet文件进行解析。该设计既满足离线批量训练需求，也适应在线强化学习场景下的增量数据加载。

背景与挑战

背景概述

在机器人技术迅猛发展的时代背景下，behavior1k-task0007数据集应运而生，作为LeRobot项目的重要组成部分。该数据集由HuggingFace机构主导构建，专门面向机器人行为学习领域，致力于解决复杂环境下的多模态感知与动作控制问题。通过集成R1Pro机器人平台采集的377万帧多视角视觉数据与23维动作向量，该资源为模仿学习与强化学习算法提供了标准化验证基准，显著推动了具身智能研究的可复现性发展。

当前挑战

该数据集核心挑战在于机器人行为模仿中的多模态时序对齐难题，需同步处理头戴式与腕部摄像头的RGB-D视频流与动作轨迹的时空一致性。构建过程中面临异构传感器标定复杂性，包括六路高清视频与深度图像的帧级同步、实例分割标注的跨视角一致性维护，以及海量流式数据（总容量达600MB）的存储索引优化，这些技术瓶颈对机器人学习系统的实时性与稳定性提出了严峻考验。

常用场景

经典使用场景

在机器人学习领域，该数据集通过多视角视觉感知与动作序列的同步记录，为模仿学习算法提供了丰富的训练素材。其包含的RGB图像、深度信息及实例分割数据，能够有效支撑机器人从视觉观察到动作执行的端到端策略学习，特别适用于复杂环境下的操作任务仿真与验证。

解决学术问题

该数据集主要应对机器人感知与决策耦合的学术挑战，通过高精度时空对齐的多模态数据，解决了传统方法在动态场景中动作泛化能力不足的问题。其结构化标注体系为研究视觉-动作映射关系、长期任务规划等核心议题提供了标准化实验基准，显著推进了具身智能的理论发展。

衍生相关工作

基于该数据集的特性，学术界衍生出多模态融合网络架构、分层强化学习策略等创新研究。这些工作通过挖掘时空连续性特征，发展了跨场景动作迁移、自适应任务分解等关键技术，持续推动着机器人行为建模领域的范式革新与方法演进。

以上内容由遇见数据集搜集并总结生成