behavior1k-task0012
收藏Hugging Face2025-11-15 更新2025-11-16 收录
下载链接:
https://huggingface.co/datasets/fracapuano/behavior1k-task0012
下载链接
链接失效反馈官方服务:
资源简介:
这是一个关于机器人学的数据集,包含R1Pro机器人在不同任务中的视频和注释数据。数据集共有200个剧集,总共有1649060帧,分为一个任务。数据以Parquet文件格式存储,并提供了相应的视频文件。每个视频片段包含左腕、右腕和头部的RGB图像、深度图像和实例分割图像,以及相关的动作、时间戳、相机相对姿态、状态、帧索引和任务索引等信息。
创建时间:
2025-11-11
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 机器人技术
- 标签: LeRobot
- 创建工具: LeRobot (https://github.com/huggingface/lerobot)
数据集规模
- 总任务数: 1
- 总片段数: 200
- 总帧数: 1,649,060
- 总视频数: 1,800
- 数据文件大小: 100 MB
- 视频文件大小: 500 MB
技术规格
- 代码库版本: v3.0
- 机器人类型: R1Pro
- 帧率: 30 FPS
- 块大小: 10,000
数据结构
数据划分
- 训练集: 0:10000
文件路径格式
- 数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
- 视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
- 元信息路径: meta/episodes/task-{episode_chunk:04d}/episode_{episode_index:08d}.json
- 标注路径: annotations/task-{episode_chunk:04d}/episode_{episode_index:08d}.json
特征描述
图像观测特征
RGB图像:
- 左腕摄像头: 480×480×3
- 右腕摄像头: 480×480×3
- 头部摄像头: 720×720×3
深度图像:
- 左腕深度: 480×480×3
- 右腕深度: 480×480×3
- 头部深度: 720×720×3
实例分割图像:
- 左腕实例分割: 480×480×3
- 右腕实例分割: 480×480×3
- 头部实例分割: 720×720×3
其他特征
- 动作: float32[23]
- 时间戳: float32[1]
- 片段索引: int64[1]
- 索引: int64[1]
- 相机相对位姿: float32[21]
- 状态观测: float32[256]
- 帧索引: int64[1]
- 任务索引: int64[1]
视频编码信息
- 编码器: libx265
- 像素格式: yuv420p (RGB), yuv420p16le (深度)
- 音频: 无
- 深度图标识: 深度图像标记为深度图
搜集汇总
数据集介绍
构建方式
在机器人技术领域,高质量的数据集对于推动智能体行为学习至关重要。behavior1k-task0012数据集通过LeRobot平台构建,采用R1Pro机器人采集了200个完整任务片段,总计1649060帧数据,以30帧每秒的速率记录。数据以分块形式存储,每块包含10000个样本,采用Parquet格式高效组织,同时配套视频文件以MP4格式保存,确保了数据的完整性和可访问性。
使用方法
研究人员可借助该数据集开展机器人行为克隆与强化学习研究。通过解析Parquet格式的数据文件,能够获取观测图像、动作序列及时间戳等关键信息。视频数据可通过指定路径加载,配合元数据与标注文件深入分析任务执行过程。数据集已预设训练集划分,支持直接用于模型训练与验证,为机器人智能行为研究提供标准化实验基准。
背景与挑战
背景概述
在机器人学习领域,多模态感知与行为建模是推动智能体在复杂环境中自主决策的核心议题。behavior1k-task0012数据集由HuggingFace的LeRobot项目团队构建,采用R1Pro机器人平台采集数据,包含200个任务片段与超过160万帧的多视角传感记录。该数据集通过整合头部与腕部视觉传感器,同步记录RGB图像、深度信息及实例分割数据,为机器人模仿学习与动作生成研究提供了高维度时空标注资源,显著促进了具身智能在动态场景中的适应性研究。
当前挑战
该数据集致力于解决机器人任务中多模态感知与动作序列生成的协同挑战,其难点在于异构传感器数据的时空对齐与高维动作空间的精确建模。构建过程中需克服多视角视频流同步存储的技术瓶颈,同时面临深度图像伪影矫正、实例分割标注一致性维护等工程难题,而大规模并行数据处理的存储效率优化亦构成关键制约因素。
常用场景
经典使用场景
在机器人学习领域,behavior1k-task0012数据集以其多视角视觉数据和动作序列的丰富性,成为模仿学习研究的经典资源。该数据集通过R1Pro机器人采集的头部与双腕部RGB、深度及实例分割图像,结合23维动作向量,为研究者提供了从原始感知到运动控制的完整数据流。其30帧/秒的高频采样特性,使得时序动作预测与策略学习任务能够精确建模人类操作行为,显著提升了机器人复杂任务执行能力的训练效果。
解决学术问题
该数据集有效解决了机器人模仿学习中多模态感知融合的学术难题。通过同步提供RGB图像、深度信息与实例分割标签,研究者能够突破传统视觉表征的局限性,实现更精确的环境理解与物体交互建模。其包含的256维状态观测向量与21维相机位姿数据,为研究传感器融合、状态估计及动作生成算法提供了坚实基础,推动了从感知到动作的端到端学习框架的发展。
实际应用
在工业自动化与家庭服务机器人领域,该数据集支撑了诸多实际应用场景的开发。基于其多视角视觉数据训练的模型,可应用于精密装配、物品分拣等需要精细操作的任务。深度信息与实例分割数据的结合,使机器人能在复杂环境中实现精准的物体抓取与避障,为智能制造与智慧生活场景中的自主操作系统的构建提供了关键数据支撑。
数据集最近研究
最新研究方向
在机器人学习领域,behavior1k-task0012数据集凭借其多模态感知数据与精细动作标注,正推动模仿学习与具身智能的前沿探索。该数据集通过R1Pro机器人采集的腕部与头部多视角视觉信息,结合深度图与实例分割数据,为三维场景理解与动作生成研究提供了丰富素材。当前研究聚焦于跨模态表征学习,旨在融合视觉观测与23维动作空间,提升机器人复杂任务中的泛化能力。随着开源社区LeRobot生态的发展,此类大规模行为数据集正加速端到端策略学习与仿真到实境迁移的技术突破,为家庭服务机器人等实际应用奠定数据基石。
以上内容由遇见数据集搜集并总结生成



