behavior1k-task0040

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/fracapuano/behavior1k-task0040

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于机器人任务的 dataset，包含200个 episodes 和647555帧数据。数据集中的视频帧包含了 RGB 和深度图像，以及状态信息和动作。数据集适用于机器人领域的相关研究和应用。

创建时间：

2025-11-11

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot
创建工具: LeRobot

数据集规模

总任务数: 1
总情节数: 200
总帧数: 647555
总视频数: 1800
数据文件大小: 100 MB
视频文件大小: 500 MB
帧率: 30 FPS
分块大小: 10000

数据结构

数据文件

数据格式: Parquet
数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
元信息路径: meta/episodes/task-{episode_chunk:04d}/episode_{episode_index:08d}.json
标注路径: annotations/task-{episode_chunk:04d}/episode_{episode_index:08d}.json

数据划分

训练集: 0:10000

特征说明

图像观察特征

RGB图像

左腕摄像头: 480×480×3
右腕摄像头: 480×480×3
头部摄像头: 720×720×3

深度图像

左腕深度: 480×480×3
右腕深度: 480×480×3
头部深度: 720×720×3

实例分割

左腕实例分割: 480×480×3
右腕实例分割: 480×480×3
头部实例分割: 720×720×3

其他特征

动作: float32[23]
时间戳: float32[1]
情节索引: int64[1]
帧索引: int64[1]
任务索引: int64[1]
相机相对位姿: float32[21]
状态观察: float32[256]

技术规格

机器人类型: R1Pro
代码库版本: v3.0
视频编码: libx265
像素格式: yuv420p/yuv420p16le

搜集汇总

数据集介绍

构建方式

在机器人技术领域，数据采集的精确性与系统性至关重要。behavior1k-task0040数据集通过R1Pro型机器人平台，以30帧每秒的采样频率记录了200个完整任务片段，涵盖647,555帧多维观测数据。数据以分块存储机制组织，每10,000帧构成一个数据块，采用Parquet格式高效保存观测图像、动作指令及时间戳等信息，并辅以MP4视频流与JSON元数据文件，确保数据结构的完整性与可追溯性。

特点

该数据集显著特点在于其多模态感知体系的构建，同步采集头部与双腕视角的RGB图像（分辨率分别为720×720与480×480）、深度图及实例分割图像，形成九路视觉感知通道。动作空间以23维浮点向量表征，结合256维状态观测与21维相机位姿参数，构建了时空对齐的多源传感器融合框架。数据规模达到100MB结构化数据与500MB视频资产，为模仿学习与机器人行为预测研究提供高密度标注样本。

使用方法

研究者可通过LeRobot生态体系调用标准化数据加载接口，依据分块索引机制动态载入训练集片段。每个数据块包含时序对齐的视觉观测、机器人动作序列及元数据注释，支持端到端行为克隆算法验证。视频流与结构化数据的并行解析能力，便于开发多模态融合模型，而任务索引与帧级标注则为分层强化学习算法提供细粒度监督信号。数据集遵循Apache 2.0许可协议，确保学术与工业应用的合规性。

背景与挑战

背景概述

行为数据集在机器人学习领域具有重要地位，作为LeRobot项目框架下构建的专用数据集，该数据集聚焦于机器人操作任务的演示学习。通过R1Pro机器人平台采集多视角视觉观测数据与动作序列，其结构设计体现了对机器人感知-动作闭环系统的深度建模需求。数据集包含647,555帧高维传感器数据，涵盖RGB图像、深度信息及实例分割标注，为模仿学习与强化学习算法提供了真实世界的物理交互基础。

当前挑战

该数据集致力于解决机器人操作任务中的动作泛化难题，其核心挑战在于跨场景的动作策略迁移与多模态感知融合。构建过程中面临传感器同步精度控制、大规模视频数据压缩存储、多视角空间标定一致性等技术瓶颈。高维动作空间的时序对齐与异构传感器数据的标准化处理亦构成显著挑战，需克服实时数据流采集中的时序漂移与空间失真问题。

常用场景

经典使用场景

在机器人学习领域，behavior1k-task0040数据集通过多视角视觉与动作序列的同步记录，为模仿学习算法提供了丰富的训练素材。该数据集收录了R1Pro机器人执行特定任务时的立体观测数据，包括手腕与头部摄像头采集的RGB图像、深度信息及实例分割结果，配合23维动作向量构成完整的行为轨迹。这类结构化数据能够有效支撑端到端策略网络的训练，使机器人通过观察人类演示掌握复杂操作技能。

解决学术问题

该数据集主要应对机器人感知与决策融合的学术挑战，通过提供精确时间戳对齐的多模态观测数据，解决了传统方法中视觉特征与运动控制解耦的局限性。其包含的256维状态表征与相机相对位姿信息，为研究者在状态估计、动作预测等方向提供了基准测试平台，显著推进了具身智能领域在真实物理环境中的适应性研究。

衍生相关工作

该数据集的发布催生了多项机器人学习领域的创新研究，例如基于时空注意力机制的行为克隆框架、多传感器融合的强化学习算法等。研究者利用其丰富的标注信息开发了跨模态表征学习模型，在LeRobot生态系统中衍生出适用于复杂场景的层次化决策网络，为开源机器人社区提供了可复现的算法基准。

以上内容由遇见数据集搜集并总结生成