behavior1k-task0011
收藏Hugging Face2025-11-15 更新2025-11-16 收录
下载链接:
https://huggingface.co/datasets/fracapuano/behavior1k-task0011
下载链接
链接失效反馈官方服务:
资源简介:
这是一个关于机器人的数据集,包含了200个剧集,共计2190686帧,专注于1个任务。数据集提供了RGB图像、深度图像、实例分割图像等多种类型的观察数据,以及动作、时间戳、相机相对位置、状态等特征。数据集以Apache-2.0许可证发布。
创建时间:
2025-11-11
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 机器人技术
- 标签: LeRobot
- 代码库版本: v3.0
数据规模
- 总任务数: 1
- 总片段数: 200
- 总帧数: 2,190,686
- 总视频数: 1,800
- 数据文件大小: 100 MB
- 视频文件大小: 500 MB
技术规格
- 帧率: 30 FPS
- 块大小: 10,000
- 机器人类型: R1Pro
数据结构
数据文件路径
- 数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
- 视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
- 元信息路径: meta/episodes/task-{episode_chunk:04d}/episode_{episode_index:08d}.json
- 标注路径: annotations/task-{episode_chunk:04d}/episode_{episode_index:08d}.json
数据分割
- 训练集: 0:10000
特征描述
图像观测数据
RGB图像
- 左腕摄像头: 480×480×3
- 右腕摄像头: 480×480×3
- 头部摄像头: 720×720×3
深度图像
- 左腕深度: 480×480×3
- 右腕深度: 480×480×3
- 头部深度: 720×720×3
实例分割图像
- 左腕分割: 480×480×3
- 右腕分割: 480×480×3
- 头部分割: 720×720×3
其他特征
- 动作: float32[23]
- 时间戳: float32[1]
- 片段索引: int64[1]
- 帧索引: int64[1]
- 任务索引: int64[1]
- 相机相对位姿: float32[21]
- 状态观测: float32[256]
视频编码信息
- 编码器: libx265
- 像素格式: yuv420p (RGB), yuv420p16le (深度)
- 音频: 无
- 深度图: 深度图像标记为深度图
搜集汇总
数据集介绍
构建方式
在机器人技术领域,高质量的数据集对于推动智能体行为学习至关重要。behavior1k-task0011数据集依托LeRobot平台构建,采用R1Pro型机器人采集了200个完整任务片段,总计219万帧数据。数据以每块10000帧的规模组织成Parquet格式文件,同时配套存储了多视角视频流,帧率稳定在30fps。原始观测数据涵盖头部及双腕的RGB图像、深度图与实例分割信息,动作空间则封装为23维浮点向量,所有时序数据均带有精确的时间戳标记。
特点
该数据集在机器人感知与控制研究中展现出鲜明的多模态特性。视觉通道提供三种不同分辨率的同步影像:头部摄像头采集720p高清画面,双腕摄像头则捕获480p局部细节。深度感知层面创新地采用16位编码的深度视频流,有效保留了三维空间信息。动作表征采用23自由度控制指令,与256维状态观测向量共同构成完整的闭环交互记录。数据集通过实例分割标签实现了像素级物体识别,为精细操作任务提供了丰富的语义基础。
使用方法
研究人员可通过标准数据加载流程调用该数据集,主要数据存储在data目录下的Parquet文件中。训练集划分明确指向前10000个数据块,视频资源按chunk索引组织于videos路径。元数据文件详细记载每个任务片段的设备参数与传感器标定信息,注释文件则包含动作序列的语义标注。使用者可借助特征字典中定义的张量结构,直接提取多模态观测数据与对应动作标签,适用于行为克隆、强化学习等机器人学习算法的训练与验证。
背景与挑战
背景概述
机器人学习领域近年来致力于通过大规模行为数据集推动具身智能发展。behavior1k-task0011作为LeRobot项目构建的机器人操作数据集,采用R1Pro机器人平台采集多模态交互数据,包含200个任务片段与219万帧高精度传感器记录。该数据集通过头戴式与腕部摄像头同步采集RGB图像、深度信息及实例分割数据,配合23维动作向量与256维状态观测,为模仿学习与策略泛化研究提供结构化基准。
当前挑战
机器人操作数据集需解决高维动作空间中的时序一致性建模难题,其23维连续动作与多视角视觉观测的异构对齐构成核心挑战。构建过程中面临多传感器时空标定精度保障、长达219万帧数据的存储效率优化,以及实例分割标注在动态场景中的语义连续性维护等技术瓶颈。海量视频数据压缩时需平衡视觉质量与存储开销,深度图像与RGB数据的跨模态融合亦对计算架构提出更高要求。
常用场景
经典使用场景
在机器人学习领域,behavior1k-task0011数据集通过R1Pro机器人采集的多视角视觉与动作序列,为模仿学习算法提供了丰富的训练素材。其包含的219万帧高分辨率RGB图像、深度图及实例分割数据,配合23维连续动作空间,能够有效支撑端到端策略网络的训练过程。该数据集以30Hz同步记录头部与双腕视角的传感器数据,为研究复杂操作任务中的时空一致性建模奠定了坚实基础。
衍生相关工作
基于该数据集的特性,学界已衍生出多模态表征学习框架与分层强化学习方法。部分研究利用其丰富的实例分割标签开发了物体感知的操纵策略,另有工作结合时序卷积网络与自注意力机制,实现了长程任务的动作序列生成。这些成果不仅推动了机器人操作技能的泛化能力,也为跨任务知识迁移提供了新的技术路径。
数据集最近研究
最新研究方向
在机器人学习领域,多模态感知数据正成为推动具身智能发展的关键要素。该数据集通过整合手腕与头部视角的RGB图像、深度信息及实例分割数据,为模仿学习与强化学习算法提供了丰富的时空上下文。当前研究聚焦于跨模态表征对齐技术,旨在解决视觉动作协同建模中的语义鸿沟问题。随着端到端策略网络架构的演进,该数据支撑的行为克隆范式正逐步突破动态场景下的泛化能力瓶颈,为工业抓取与精密装配等任务奠定算法基础。
以上内容由遇见数据集搜集并总结生成



