behavior1k-task0002

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/fracapuano/behavior1k-task0002

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于机器人任务的 dataset，包含了200个 episodes 的视频数据，每个episode包含多个帧，总共有2766429帧。数据集分为训练集。数据集包含了多种观测数据，如 RGB 图像、深度图像、实例分割图像等，以及对应的动作和时间戳。数据以Parquet和MP4格式存储。

This is a dataset for robotic task applications. It encompasses video data from 200 episodes, where each episode consists of multiple frames, with an overall total of 2,766,429 frames. The dataset is divided into training subsets. It includes a variety of observational data types, such as RGB images, depth images, instance segmentation images, as well as corresponding action data and timestamps. All data is stored in Parquet and MP4 formats.

创建时间：

2025-11-06

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot
代码库版本: v3.0

数据集规模

总任务数: 1
总片段数: 200
总帧数: 2,766,429
总视频数: 1,800
数据文件大小: 100 MB
视频文件大小: 500 MB

技术规格

帧率: 30 FPS
块大小: 10,000
机器人类型: R1Pro

数据特征

图像观察数据

RGB图像:

左腕摄像头: 480×480×3
右腕摄像头: 480×480×3
头部摄像头: 720×720×3

深度图像:

左腕摄像头: 480×480×3
右腕摄像头: 480×480×3
头部摄像头: 720×720×3

实例分割图像:

左腕摄像头: 480×480×3
右腕摄像头: 480×480×3
头部摄像头: 720×720×3

其他数据

动作: float32[23]
时间戳: float32[1]
状态观察: float32[256]
相机相对位姿: float32[21]
片段索引: int64[1]
帧索引: int64[1]
任务索引: int64[1]
索引: int64[1]

数据分割

训练集: 0:10000

文件结构

数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
元信息文件: meta/episodes/task-{episode_chunk:04d}/episode_{episode_index:08d}.json
标注文件: annotations/task-{episode_chunk:04d}/episode_{episode_index:08d}.json

创建信息

创建工具: LeRobot (https://github.com/huggingface/lerobot)

搜集汇总

数据集介绍

构建方式

在机器人技术领域，数据集的构建质量直接影响算法的训练效果。behavior1k-task0002数据集通过R1Pro机器人平台采集，包含200个完整任务片段，总计2766429帧数据，以30帧每秒的速率记录。数据采用分块存储策略，每块包含10000个数据点，并以Parquet格式保存，确保高效读取与处理。多视角视觉信息来自头部及左右腕部摄像头，涵盖RGB图像、深度图及实例分割数据，辅以机器人状态和动作向量，构建了丰富的机器人行为记录体系。

使用方法

研究人员可通过LeRobot框架直接加载该数据集进行算法开发。数据按任务片段组织，支持通过episode_index和frame_index进行精确索引。训练集划分明确，涵盖前10000个数据块，用户可依据meta信息中的路径规范访问视频文件与标注数据。多模态数据流支持同步解析，动作序列与视觉观测可通过时间戳对齐，为行为克隆、轨迹预测等任务提供标准化输入。数据集遵循Apache 2.0许可，支持学术与商业场景的灵活应用。

背景与挑战

背景概述

行为数据集作为机器人学习领域的重要资源，其发展源于对复杂任务执行能力的需求。behavior1k-task0002数据集依托LeRobot开源框架构建，采用R1Pro机器人平台采集多模态交互数据，包含200个任务片段与276万帧高维观测记录。该数据集通过头戴式与腕部传感器同步捕捉RGB图像、深度信息及实例分割数据，为模仿学习与行为克隆研究提供结构化训练基础，推动机器人从感知到动作的端到端学习范式演进。

当前挑战

机器人行为数据集需解决高维连续动作空间的建模难题，包括多视角视觉信息与23维动作向量的时序对齐问题。构建过程中面临传感器标定误差、异构数据流同步精度控制等工程挑战，深度图像编码与实例分割标签的存储优化亦需特殊处理。海量视频数据的高效压缩与检索机制成为影响数据集实用性的关键瓶颈。

常用场景

经典使用场景

在机器人学习领域，behavior1k-task0002数据集凭借其多视角视觉数据与动作序列的同步记录，成为模仿学习研究的典型资源。该数据集通过R1Pro机器人采集的头部与双腕部RGB、深度及实例分割影像，结合23维动作向量，为机器人行为克隆提供了高保真度的训练样本。研究者可利用这些时序数据构建端到端策略网络，使机器人能够复现人类演示的复杂操作任务。

解决学术问题

该数据集有效解决了机器人感知-动作映射中的表征学习难题。通过提供多模态同步观测数据，支持了从原始像素到关节控制信号的直接映射研究。其丰富的传感器配置突破了传统仿真环境的局限性，为具身智能研究提供了真实世界的物理交互数据，显著推进了视觉-运动协同控制、跨模态表示对齐等基础问题的探索进程。

实际应用

在工业自动化场景中，该数据集支撑的算法可应用于精密装配、物料分拣等流程。医疗机器人领域则借助其多视角视觉特性发展手术辅助系统，通过模仿专家动作实现精准操作。服务机器人行业利用此类数据开发家居整理、物品抓取等日常任务解决方案，显著降低了机器人编程的专家门槛。

数据集最近研究