five

behavior1k-task0031

收藏
Hugging Face2025-11-15 更新2025-11-16 收录
下载链接:
https://huggingface.co/datasets/fracapuano/behavior1k-task0031
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于机器人任务的数据集,特别是为R1Pro类型的机器人设计。数据集包含了200个 episodes,总共有1,647,072帧,分为一个任务。数据集以Parquet文件格式存储,并提供了对应的视频文件。每个视频文件包含不同视角的图像,包括RGB和深度图,以及动作、时间戳、相机相对位置和状态等信息。
创建时间:
2025-11-11
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 机器人学
  • 相关标签: LeRobot
  • 创建工具: LeRobot (https://github.com/huggingface/lerobot)

数据集规模

  • 总任务数: 1
  • 总片段数: 200
  • 总帧数: 1,647,072
  • 总视频数: 1,800
  • 数据文件大小: 100 MB
  • 视频文件大小: 500 MB
  • 帧率: 30 FPS
  • 块大小: 10,000
  • 代码库版本: v3.0
  • 机器人类型: R1Pro

数据划分

  • 训练集: 0:10000

数据结构

文件路径格式

  • 数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
  • 视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
  • 元信息文件: meta/episodes/task-{episode_chunk:04d}/episode_{episode_index:08d}.json
  • 标注文件: annotations/task-{episode_chunk:04d}/episode_{episode_index:08d}.json

特征字段

图像观测数据

RGB图像:

  • 左腕摄像头: 480×480×3 (H×W×RGB)
  • 右腕摄像头: 480×480×3 (H×W×RGB)
  • 头部摄像头: 720×720×3 (H×W×RGB)

深度图像:

  • 左腕深度: 480×480×3 (H×W×Depth)
  • 右腕深度: 480×480×3 (H×W×Depth)
  • 头部深度: 720×720×3 (H×W×Depth)

实例分割图像:

  • 左腕实例分割: 480×480×3 (H×W×RGB)
  • 右腕实例分割: 480×480×3 (H×W×RGB)
  • 头部实例分割: 720×720×3 (H×W×RGB)

其他特征

  • 动作: float32[23]
  • 时间戳: float32[1]
  • 片段索引: int64[1]
  • 帧索引: int64[1]
  • 任务索引: int64[1]
  • 观测状态: float32[256]
  • 相机相对位姿: float32[21]
  • 索引: int64[1]

视频编码信息

  • 编码器: libx265
  • 像素格式: yuv420p (RGB), yuv420p16le (深度)
  • 音频: 无
  • 深度图标识: 深度特征为true,其他为false
搜集汇总
数据集介绍
main_image_url
构建方式
在机器人技术领域,高质量的数据集对于推动智能体行为学习至关重要。behavior1k-task0031数据集通过LeRobot平台构建,采用R1Pro型机器人采集了200个完整任务片段,总计包含1647072帧数据。数据以分块形式存储,每块10000帧,以30帧/秒的速率记录多视角视觉信息与机器人状态。原始数据经过标准化处理,保存为Parquet格式,并配备视频流与元数据文件,确保数据结构的完整性与可追溯性。
使用方法
研究者可通过HuggingFace平台直接加载该数据集进行机器人行为分析。数据按训练集划分,支持通过分块索引机制高效读取Parquet文件。用户可调用视频路径模板解析多视角视觉流,结合元数据文件获取任务上下文信息。该结构兼容主流机器学习框架,适用于端到端策略训练、多传感器融合研究及跨模态表示学习等应用场景。
背景与挑战
背景概述
在机器人学习领域,大规模行为数据集的构建对推动具身智能发展具有关键意义。behavior1k-task0031数据集由HuggingFace的LeRobot项目团队开发,采用R1Pro机器人平台采集多模态交互数据。该数据集聚焦于机器人操作任务的序列学习问题,通过整合手腕与头部视角的RGB图像、深度信息及实例分割数据,为研究复杂环境下的动作规划与状态感知提供重要支撑。其包含200个任务片段与超过160万帧时序数据,通过结构化存储格式促进机器人模仿学习算法的标准化评估。
当前挑战
该数据集致力于解决机器人操作任务中的多模态感知与动作生成难题,其核心挑战在于异构传感器数据的时空对齐与跨模态融合。构建过程中面临多视角视觉数据同步采集的技术瓶颈,需协调三组摄像头以30Hz频率同步记录高分辨率图像与深度信息。数据标注环节涉及实例分割掩码的精确生成,而23维连续动作空间的规范化表达则需平衡控制精度与泛化能力。海量视频数据的压缩存储与高效检索机制亦是关键制约因素。
常用场景
经典使用场景
在机器人学习领域,behavior1k-task0031数据集通过多视角视觉感知与动作序列的同步记录,为模仿学习算法提供了丰富的训练素材。该数据集收录了R1Pro机器人执行单一任务时的完整行为数据,包含头部及双腕部的高清RGB图像、深度信息与实例分割数据,配合23维动作向量与256维状态观测,构建了机器人行为理解的立体框架。研究者可基于该数据集开发端到端的策略网络,通过观察人类示范动作实现机器人技能的精准复现。
解决学术问题
该数据集有效解决了机器人模仿学习中多模态感知融合的学术难题。通过提供同步采集的视觉、深度与实例分割数据,研究者能够深入探索跨模态表征对齐机制,突破传统方法在复杂场景下的感知局限。其精确的时间戳标注与动作序列记录,为研究连续控制策略中的时序依赖关系提供了实验基础,显著推进了机器人行为预测模型的泛化能力与稳定性研究。
实际应用
在工业自动化场景中,该数据集支撑的算法可应用于精密装配流水线,通过视觉引导实现复杂零部件的抓取与定位。服务机器人领域则借助其多视角行为数据,开发适应动态环境的自主操作系统,例如医疗辅助机器人可根据头部与腕部视觉信息完成器械传递任务。这些应用显著提升了机器人在非结构化环境中的作业精度与适应性。
数据集最近研究
最新研究方向
在机器人操作学习领域,behavior1k-task0031数据集凭借其多模态感知特性正推动模仿学习范式的革新。该数据集通过R1Pro机器人采集的立体视觉数据与23维动作空间,为具身智能研究提供了高保真度的行为克隆基础。当前前沿研究聚焦于跨模态表征对齐技术,利用头戴与腕部摄像头的RGB-D视频流与实例分割信息,构建端到端的动作预测模型。随着通用机器人策略学习需求的增长,该数据集在元技能迁移、多任务泛化等方向展现出关键价值,为构建可适应复杂物理交互的智能体奠定了数据基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作