behavior1k-task0009
收藏Hugging Face2025-11-15 更新2025-11-16 收录
下载链接:
https://huggingface.co/datasets/fracapuano/behavior1k-task0009
下载链接
链接失效反馈官方服务:
资源简介:
这是一个由LeRobot创建的机器人数据集,包含200个episodes,每个episode包含多个帧,总帧数达到2743752帧。数据集结构包括多种观测数据,如RGB图像、深度图、动作等,并以Parquet和MP4格式存储。
创建时间:
2025-11-11
原始信息汇总
数据集概述
基本信息
- 数据集名称: behavior1k-task0009
- 许可证: Apache-2.0
- 任务类别: 机器人学
- 标签: LeRobot
- 创建工具: LeRobot (https://github.com/huggingface/lerobot)
数据集规模
- 总任务数: 1
- 总情节数: 200
- 总帧数: 2,743,752
- 总视频数: 1,800
- 数据文件大小: 100 MB
- 视频文件大小: 500 MB
技术规格
- 代码库版本: v3.0
- 机器人类型: R1Pro
- 帧率: 30 FPS
- 分块大小: 10,000
- 训练集划分: 0:10000
数据特征
图像观察数据
RGB图像:
- 左腕摄像头: 480×480×3
- 右腕摄像头: 480×480×3
- 头部摄像头: 720×720×3
深度图像:
- 左腕深度: 480×480×3
- 右腕深度: 480×480×3
- 头部深度: 720×720×3
实例分割图像:
- 左腕实例分割: 480×480×3
- 右腕实例分割: 480×480×3
- 头部实例分割: 720×720×3
其他特征
- 动作: float32[23]
- 时间戳: float32[1]
- 状态观察: float32[256]
- 相机相对位姿: float32[21]
- 情节索引: int64[1]
- 帧索引: int64[1]
- 任务索引: int64[1]
- 索引: int64[1]
文件结构
- 数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
- 视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
- 元信息文件: meta/episodes/task-{episode_chunk:04d}/episode_{episode_index:08d}.json
- 标注文件: annotations/task-{episode_chunk:04d}/episode_{episode_index:08d}.json
视频编码信息
- 视频编码器: libx265
- 像素格式: yuv420p (RGB), yuv420p16le (深度图)
- 音频: 无
- 深度图标识: 深度图像标记为深度图
搜集汇总
数据集介绍
构建方式
在机器人技术领域,数据集的构建往往依赖于实际硬件平台与算法框架的协同工作。behavior1k-task0009数据集通过R1Pro机器人平台采集了200个完整任务片段,总计包含2743752帧数据,以30帧每秒的速率记录。数据采用分块存储机制,每个数据块包含10000帧,并以Parquet格式高效保存,同时配套视频文件采用H.265编码压缩,确保数据完整性与存储效率的平衡。
特点
该数据集在机器人感知研究领域展现出多模态融合的显著特性。其核心价值在于同步提供了左腕、右腕及头部视角的RGB图像、深度图与实例分割图,分辨率分别达到480×480与720×720像素。动作空间以23维浮点向量表征,辅以256维状态观测和21维相机位姿数据,这种多维度的传感器融合为模仿学习与行为克隆研究提供了丰富的时空上下文信息。
使用方法
针对机器人行为学习的研究需求,该数据集可通过LeRobot代码库进行调用与处理。数据按任务片段组织,研究者可通过指定片段索引加载对应的观测-动作序列。训练集划分明确覆盖前10000个数据块,支持直接读取Parquet格式的传感器数据与MP4格式的视频流,其标准化接口设计便于集成至现代深度学习管道,适用于端到端策略学习与感知模型训练。
背景与挑战
背景概述
机器人学习领域正经历从仿真环境向真实世界迁移的关键转型,behavior1k-task0009数据集作为LeRobot项目的重要组成部分,依托R1Pro机器人平台采集了200个任务片段与274万帧多模态数据。该数据集通过头部与双腕配置的RGB-D视觉传感器及实例分割模块,构建了包含23维动作空间与256维状态表征的完整行为学习框架,其30Hz同步采集频率与分布式存储架构为模仿学习与强化学习算法提供了高保真度的训练基础。
当前挑战
该数据集致力于解决机器人操作任务中的动作规划与场景理解耦合难题,其多视角视觉感知与高维动作空间的协同建模对深度神经网络提出严峻考验。在构建过程中面临传感器时序同步、大规模视频数据压缩存储、跨模态特征对齐等技术瓶颈,同时需确保不同机械臂位姿下的视觉观测一致性,这些因素共同构成了复杂机器人行为数据集构建的典型挑战。
常用场景
经典使用场景
在机器人学习领域,behavior1k-task0009数据集通过多视角视觉数据与动作序列的精确对齐,为模仿学习算法提供了丰富的训练素材。该数据集收录了R1Pro机器人执行任务时采集的立体视觉信息,包括左右腕部及头部的RGB图像、深度图与实例分割数据,配合23维动作向量与256维状态观测,构建了完整的感知-动作映射关系。这种多模态数据融合特性使其成为开发端到端机器人控制模型的理想测试平台,特别是在需要精细动作规划的任务中展现出独特价值。
解决学术问题
该数据集有效解决了机器人模仿学习中多模态感知融合的学术难题。通过提供同步采集的视觉、深度与实例分割数据,研究者能够深入探索跨模态表征学习机制,突破传统单模态数据的局限性。其精确的时间戳标注与动作序列对应关系,为研究连续动作空间中的策略学习提供了可靠基准,显著推进了从视觉输入到动作输出的直接映射模型发展,对提升机器人任务泛化能力具有重要理论意义。
衍生相关工作
基于该数据集的特性,已催生系列关于多模态机器人学习的创新研究。相关工作聚焦于开发新型时空注意力机制以处理多视角视频序列,探索跨模态预训练策略提升模型泛化性能。部分研究利用其丰富的实例分割标注推进具身视觉推理技术发展,还有工作结合深度信息开发鲁棒的动作预测模型,这些衍生研究共同推动了机器人感知-决策一体化框架的演进。
以上内容由遇见数据集搜集并总结生成



