five

behavior1k-task0007

收藏
Hugging Face2025-11-15 更新2025-11-16 收录
下载链接:
https://huggingface.co/datasets/fracapuano/behavior1k-task0007
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个关于机器人学的数据集,使用LeRobot创建。数据集包含200个剧集,总共有3778110帧,1个任务。数据集的结构包括多种视频和图像特征,如RGB图像、深度图像和分割实例ID图像。每个视频的帧率为30fps。具体的数据集描述和引用信息未在README文件中提供。
创建时间:
2025-11-11
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 机器人学
  • 标签: LeRobot
  • 创建工具: LeRobot

数据集结构

元数据

  • 代码库版本: v3.0
  • 机器人类型: R1Pro
  • 总任务数: 1
  • 总片段数: 200
  • 总帧数: 3,778,110
  • 块大小: 10,000
  • 帧率: 30 FPS

数据规模

  • 数据文件大小: 100 MB
  • 视频文件大小: 500 MB
  • 总视频数: 1,800

数据特征

图像观察数据

  • 左腕RGB图像: 480×480×3,视频格式
  • 右腕RGB图像: 480×480×3,视频格式
  • 头部RGB图像: 720×720×3,视频格式
  • 左腕深度图像: 480×480×3,深度图
  • 右腕深度图像: 480×480×3,深度图
  • 头部深度图像: 720×720×3,深度图
  • 左腕实例分割图像: 480×480×3,视频格式
  • 右腕实例分割图像: 480×480×3,视频格式
  • 头部实例分割图像: 720×720×3,视频格式

其他特征

  • 动作: float32[23],30 FPS
  • 时间戳: float32[1],30 FPS
  • 片段索引: int64[1],30 FPS
  • 帧索引: int64[1],30 FPS
  • 任务索引: int64[1],30 FPS
  • 相机相对位姿: float32[21],30 FPS
  • 状态观察: float32[256],30 FPS

数据组织

  • 数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
  • 视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
  • 元信息路径: meta/episodes/task-{episode_chunk:04d}/episode_{episode_index:08d}.json
  • 标注路径: annotations/task-{episode_chunk:04d}/episode_{episode_index:08d}.json

数据划分

  • 训练集: 0:10000

引用信息

  • 主页: 待补充
  • 论文: 待补充
  • BibTeX引用: 待补充
搜集汇总
数据集介绍
main_image_url
构建方式
在机器人技术领域,数据集的构建往往依赖于实际硬件平台的实时采集。本数据集通过R1Pro型机器人系统,以30帧每秒的采样频率记录了200个完整任务片段,累计生成377.8万帧多维观测数据。数据采用分块存储架构,将视频流与传感器读数分别保存在parquet格式文件中,并通过标准化元数据文件维护任务片段的结构化信息。这种构建方式既保证了数据的时空连续性,又实现了高效存储与快速检索的平衡。
特点
该数据集最显著的特征在于其多模态数据融合架构,同步采集了头戴式与双腕部摄像头的RGB视频、深度图及实例分割图像,形成了九路并行视觉数据流。所有视觉数据均采用H.265编码压缩,其中RGB图像分辨率为480×480与720×720双规格,深度图则采用16位精度存储。配合23维动作向量、256维状态观测及21维相机位姿等结构化数据,构建出涵盖视觉感知与运动控制的完整机器人交互记录。这种多维异构数据的同步对齐,为具身智能研究提供了丰富的实验素材。
使用方法
研究人员可通过LeRobot代码库提供的标准数据加载接口访问本数据集,其分块存储设计支持流式读取与随机采样。数据集按任务索引组织,每个episode包含连续帧序列及对应动作标签,用户可根据frame_index实现精确帧级定位。对于视觉模态分析,可直接调用video_path获取MP4格式视频流;而结构化数据则通过data_path读取parquet文件进行解析。该设计既满足离线批量训练需求,也适应在线强化学习场景下的增量数据加载。
背景与挑战
背景概述
在机器人技术迅猛发展的时代背景下,behavior1k-task0007数据集应运而生,作为LeRobot项目的重要组成部分。该数据集由HuggingFace机构主导构建,专门面向机器人行为学习领域,致力于解决复杂环境下的多模态感知与动作控制问题。通过集成R1Pro机器人平台采集的377万帧多视角视觉数据与23维动作向量,该资源为模仿学习与强化学习算法提供了标准化验证基准,显著推动了具身智能研究的可复现性发展。
当前挑战
该数据集核心挑战在于机器人行为模仿中的多模态时序对齐难题,需同步处理头戴式与腕部摄像头的RGB-D视频流与动作轨迹的时空一致性。构建过程中面临异构传感器标定复杂性,包括六路高清视频与深度图像的帧级同步、实例分割标注的跨视角一致性维护,以及海量流式数据(总容量达600MB)的存储索引优化,这些技术瓶颈对机器人学习系统的实时性与稳定性提出了严峻考验。
常用场景
经典使用场景
在机器人学习领域,该数据集通过多视角视觉感知与动作序列的同步记录,为模仿学习算法提供了丰富的训练素材。其包含的RGB图像、深度信息及实例分割数据,能够有效支撑机器人从视觉观察到动作执行的端到端策略学习,特别适用于复杂环境下的操作任务仿真与验证。
解决学术问题
该数据集主要应对机器人感知与决策耦合的学术挑战,通过高精度时空对齐的多模态数据,解决了传统方法在动态场景中动作泛化能力不足的问题。其结构化标注体系为研究视觉-动作映射关系、长期任务规划等核心议题提供了标准化实验基准,显著推进了具身智能的理论发展。
衍生相关工作
基于该数据集的特性,学术界衍生出多模态融合网络架构、分层强化学习策略等创新研究。这些工作通过挖掘时空连续性特征,发展了跨场景动作迁移、自适应任务分解等关键技术,持续推动着机器人行为建模领域的范式革新与方法演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作