behavior1k-task0031

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/fracapuano/behavior1k-task0031

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于机器人任务的数据集，特别是为R1Pro类型的机器人设计。数据集包含了200个 episodes，总共有1,647,072帧，分为一个任务。数据集以Parquet文件格式存储，并提供了对应的视频文件。每个视频文件包含不同视角的图像，包括RGB和深度图，以及动作、时间戳、相机相对位置和状态等信息。

创建时间：

2025-11-11

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
相关标签: LeRobot
创建工具: LeRobot (https://github.com/huggingface/lerobot)

数据集规模

总任务数: 1
总片段数: 200
总帧数: 1,647,072
总视频数: 1,800
数据文件大小: 100 MB
视频文件大小: 500 MB
帧率: 30 FPS
块大小: 10,000
代码库版本: v3.0
机器人类型: R1Pro

数据划分

训练集: 0:10000

数据结构

文件路径格式

数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
元信息文件: meta/episodes/task-{episode_chunk:04d}/episode_{episode_index:08d}.json
标注文件: annotations/task-{episode_chunk:04d}/episode_{episode_index:08d}.json

特征字段

图像观测数据

RGB图像:

左腕摄像头: 480×480×3 (H×W×RGB)
右腕摄像头: 480×480×3 (H×W×RGB)
头部摄像头: 720×720×3 (H×W×RGB)

深度图像:

左腕深度: 480×480×3 (H×W×Depth)
右腕深度: 480×480×3 (H×W×Depth)
头部深度: 720×720×3 (H×W×Depth)

实例分割图像:

左腕实例分割: 480×480×3 (H×W×RGB)
右腕实例分割: 480×480×3 (H×W×RGB)
头部实例分割: 720×720×3 (H×W×RGB)

其他特征

动作: float32[23]
时间戳: float32[1]
片段索引: int64[1]
帧索引: int64[1]
任务索引: int64[1]
观测状态: float32[256]
相机相对位姿: float32[21]
索引: int64[1]

视频编码信息

编码器: libx265
像素格式: yuv420p (RGB), yuv420p16le (深度)
音频: 无
深度图标识: 深度特征为true，其他为false

搜集汇总

数据集介绍

构建方式

在机器人技术领域，高质量的数据集对于推动智能体行为学习至关重要。behavior1k-task0031数据集通过LeRobot平台构建，采用R1Pro型机器人采集了200个完整任务片段，总计包含1647072帧数据。数据以分块形式存储，每块10000帧，以30帧/秒的速率记录多视角视觉信息与机器人状态。原始数据经过标准化处理，保存为Parquet格式，并配备视频流与元数据文件，确保数据结构的完整性与可追溯性。

使用方法

研究者可通过HuggingFace平台直接加载该数据集进行机器人行为分析。数据按训练集划分，支持通过分块索引机制高效读取Parquet文件。用户可调用视频路径模板解析多视角视觉流，结合元数据文件获取任务上下文信息。该结构兼容主流机器学习框架，适用于端到端策略训练、多传感器融合研究及跨模态表示学习等应用场景。

背景与挑战

背景概述

在机器人学习领域，大规模行为数据集的构建对推动具身智能发展具有关键意义。behavior1k-task0031数据集由HuggingFace的LeRobot项目团队开发，采用R1Pro机器人平台采集多模态交互数据。该数据集聚焦于机器人操作任务的序列学习问题，通过整合手腕与头部视角的RGB图像、深度信息及实例分割数据，为研究复杂环境下的动作规划与状态感知提供重要支撑。其包含200个任务片段与超过160万帧时序数据，通过结构化存储格式促进机器人模仿学习算法的标准化评估。

当前挑战

该数据集致力于解决机器人操作任务中的多模态感知与动作生成难题，其核心挑战在于异构传感器数据的时空对齐与跨模态融合。构建过程中面临多视角视觉数据同步采集的技术瓶颈，需协调三组摄像头以30Hz频率同步记录高分辨率图像与深度信息。数据标注环节涉及实例分割掩码的精确生成，而23维连续动作空间的规范化表达则需平衡控制精度与泛化能力。海量视频数据的压缩存储与高效检索机制亦是关键制约因素。

常用场景

经典使用场景

在机器人学习领域，behavior1k-task0031数据集通过多视角视觉感知与动作序列的同步记录，为模仿学习算法提供了丰富的训练素材。该数据集收录了R1Pro机器人执行单一任务时的完整行为数据，包含头部及双腕部的高清RGB图像、深度信息与实例分割数据，配合23维动作向量与256维状态观测，构建了机器人行为理解的立体框架。研究者可基于该数据集开发端到端的策略网络，通过观察人类示范动作实现机器人技能的精准复现。

解决学术问题

该数据集有效解决了机器人模仿学习中多模态感知融合的学术难题。通过提供同步采集的视觉、深度与实例分割数据，研究者能够深入探索跨模态表征对齐机制，突破传统方法在复杂场景下的感知局限。其精确的时间戳标注与动作序列记录，为研究连续控制策略中的时序依赖关系提供了实验基础，显著推进了机器人行为预测模型的泛化能力与稳定性研究。

实际应用

在工业自动化场景中，该数据集支撑的算法可应用于精密装配流水线，通过视觉引导实现复杂零部件的抓取与定位。服务机器人领域则借助其多视角行为数据，开发适应动态环境的自主操作系统，例如医疗辅助机器人可根据头部与腕部视觉信息完成器械传递任务。这些应用显著提升了机器人在非结构化环境中的作业精度与适应性。

数据集最近研究