behavior1k

Hugging Face2025-11-20 更新2025-11-21 收录

下载链接：

https://huggingface.co/datasets/fracapuano/behavior1k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot工具创建，包含用于机器人任务的多种特征，如来自不同视角的RGB和深度图像、动作等。数据以Parquet文件格式存储。具体的数据集描述在README中未提供。

创建时间：

2025-11-11

原始信息汇总

数据集概述

基本信息

名称: behavior1k
许可证: Apache-2.0
任务类别: 机器人学
创建工具: LeRobot

数据集规模

总任务数: 10
总情节数: 2000
总帧数: 21227314
帧率: 30 FPS
数据文件大小: 100 MB
视频文件大小: 500 MB
代码库版本: v3.0
机器人类型: R1Pro

数据结构

数据分割

训练集: 0-2000

文件路径格式

数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

特征说明

图像观测特征

RGB图像

左腕摄像头: 480×480×3
右腕摄像头: 480×480×3
头部摄像头: 720×720×3

深度图像

左腕深度: 480×480×3
右腕深度: 480×480×3
头部深度: 720×720×3

实例分割图像

左腕实例分割: 480×480×3
右腕实例分割: 480×480×3
头部实例分割: 720×720×3

其他特征

动作: float32[23]，30 FPS
状态观测: float32[256]，30 FPS
相机相对位姿: float32[21]，30 FPS
时间戳: float32[1]
情节索引: int64[1]
帧索引: int64[1]
任务索引: int64[1]
索引: int64[1]

视频编码信息

编码器: libx265
像素格式: yuv420p（RGB）/ yuv420p16le（深度）
音频: 无
深度图标识: 深度特征为true，RGB特征为false

搜集汇总

数据集介绍

构建方式

在机器人技术领域，高质量的行为数据集对于算法训练至关重要。behavior1k数据集通过R1Pro机器人平台采集，利用LeRobot框架整合了2000个任务片段，涵盖10种不同任务类型。数据以30帧/秒的速率记录，采用分块存储策略，每个数据块包含1000个样本，总数据量达2120万帧。原始传感器数据经过标准化处理，存储为parquet格式，视频数据则采用libx265编码压缩，确保数据高效存储与读取。

使用方法

研究者可通过HuggingFace平台直接访问该数据集，数据按chunk索引组织便于流式加载。训练时可按episode_index划分任务序列，利用frame_index实现精确帧级检索。多模态数据支持联合训练，视觉特征可与动作向量同步提取。建议使用LeRobot配套工具进行数据预处理，利用timestamp实现多传感器数据对齐，通过task_index可针对特定任务进行模型微调。

背景与挑战

背景概述

在机器人技术迅猛发展的背景下，行为数据集成为推动智能体与环境交互能力提升的关键资源。behavior1k数据集由HuggingFace的LeRobot项目团队构建，依托R1Pro机器人平台采集多模态交互数据，其核心研究问题聚焦于复杂场景下的机器人行为模仿与强化学习。该数据集通过整合2000个任务片段、2120万帧多视角视觉数据及23维动作空间，为机器人感知决策系统提供了大规模训练基础，显著促进了具身智能领域从静态感知到动态执行的范式转移。

当前挑战

该数据集致力于解决机器人行为克隆中的多模态感知与动作生成难题，其挑战体现在异构传感器时序对齐、高维动作空间语义解耦等方面。构建过程中面临数据采集复杂度高的问题，包括多摄像头视角同步、深度图像与实例分割数据的标定一致性，以及海量视频流与动作序列的存储优化。此外，真实环境中任务执行的随机性导致数据分布偏移，需通过算法增强数据的时空连贯性与任务泛化能力。

常用场景

经典使用场景

在机器人学习领域，behavior1k数据集通过R1Pro机器人采集的多视角视觉与动作数据，为模仿学习算法提供了丰富的训练基础。其包含2000个任务片段和超过2100万帧的多模态观测数据，支持从第一人称视角学习复杂操作技能。该数据集特别适用于端到端的行为克隆和强化学习研究，能够模拟真实环境中的连续决策过程。

解决学术问题

该数据集有效解决了机器人学习中的样本效率低下和泛化能力不足等核心问题。通过提供高维视觉观测与对应动作的精确对齐，研究者能够开发更稳健的感知控制模型。其多模态特性尤其有助于探索视觉-动作映射的隐式规律，为跨场景技能迁移提供了关键数据支撑，推动了具身智能的理论发展。

实际应用

基于behavior1k训练的模型可应用于工业装配、家庭服务等现实场景。其多摄像头配置模拟了人类操作时的视觉感知机制，使机器人能够完成精细物体操控任务。在物流分拣领域，该数据驱动的学习方法显著降低了传统编程的复杂度，为自适应机器人系统提供了可行的技术路径。

数据集最近研究