Blue-Snap-Task3_bboxes

Hugging Face2025-08-27 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/phospho-app/Blue-Snap-Task3_bboxes

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人技术相关的数据集，包含10个剧集，5139帧，1个任务，20个视频和1个块。每个块包含1000帧数据，帧率为30fps。数据集提供了多种特征，包括动作、观测状态、顶部和手腕的图像信息，以及时间戳、帧索引、剧集索引、索引和任务索引等。数据集的许可证为Apache-2.0。

创建时间：

2025-08-27

原始信息汇总

数据集概述

基本信息

名称: phospho-app/Blue-Snap-Task3_bboxes
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集结构

总任务数: 1
总视频数: 20
总片段数: 10
总帧数: 5139
块数: 1
块大小: 1000
帧率: 30 FPS
数据格式: Parquet
数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4
分割: 训练集 (0:10)

特征描述

action:
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
observation.state:
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
observation.images.top:
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 信息: 视频高度480，宽度640，编解码器av1，像素格式yuv420p，非深度图，帧率30，通道数3，无音频
observation.images.wrist:
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 信息: 视频高度480，宽度640，编解码器av1，像素格式yuv420p，非深度图，帧率30，通道数3，无音频
timestamp:
- 数据类型: float32
- 形状: [1]
- 名称: 无
frame_index:
- 数据类型: int64
- 形状: [1]
- 名称: 无
episode_index:
- 数据类型: int64
- 形状: [1]
- 名称: 无
index:
- 数据类型: int64
- 形状: [1]
- 名称: 无
task_index:
- 数据类型: int64
- 形状: [1]
- 名称: 无

技术信息

代码库版本: v2.1
机器人类型: so101_follower

引用信息

BibTeX: 未提供

搜集汇总

数据集介绍

构建方式

在机器人技术领域，高质量数据集的构建对算法训练至关重要。Blue-Snap-Task3_bboxes数据集通过LeRobot平台系统采集，包含10个完整任务片段，总计5139帧图像数据。数据以分块形式存储于Parquet格式文件中，每块容纳1000帧，帧率统一为30fps，确保了时序一致性。采集过程采用so101_follower型机器人，同步记录关节状态、视觉观测及时间戳信息，形成多模态数据流。

特点

该数据集的核心特征体现在其多维度的观测与动作空间设计。动作空间包含6自由度关节位置控制指令，涵盖肩部平移、肩部抬升、肘部屈伸、腕部屈伸、腕部旋转及夹爪开合。观测空间则集成双视角视觉输入：顶部摄像头与腕部摄像头均提供640x480分辨率RGB图像，辅以6维关节状态反馈。数据采用AV1编码压缩存储，在保证视觉质量的同时显著降低存储开销，所有数据均配备精确的时间同步标记。

使用方法

针对机器人模仿学习与行为克隆研究，该数据集支持端到端训练流程。研究人员可通过加载Parquet文件直接获取时序对齐的多模态数据流，其中状态观测与动作标签天然对应。训练时可提取顶部或腕部视觉观测作为模型输入，联合关节状态信息预测动作输出。数据集已预划分为训练集（10个完整片段），适用于序列建模、视觉运动策略学习等任务，可直接接入主流深度学习框架进行模型训练与验证。

背景与挑战

背景概述

Blue-Snap-Task3_bboxes数据集诞生于机器人技术蓬勃发展的时代背景下，由LeRobot研究团队基于Apache 2.0开源协议构建。该数据集专注于机械臂操作任务，采用so101_follower型机器人采集多模态数据，包含10个完整 episodes 的时空序列记录。其核心价值在于提供了包含关节状态、视觉观测与动作指令的同步数据流，为模仿学习与强化学习算法在真实物理环境中的部署奠定了数据基础。通过高精度传感器采集的6自由度机械臂运动轨迹与双视角视觉数据，显著推动了机器人行为克隆与自主操作能力的研究进程。

当前挑战

该数据集致力于解决机器人视觉-动作协同映射的复杂问题，其核心挑战在于高维连续动作空间中的精确轨迹预测与多模态感知融合。构建过程中面临传感器同步精度保障、大规模视频数据压缩存储、以及机械臂运动轨迹噪声滤除等技术难点。此外，真实环境下的光照变化、遮挡干扰与机械系统延迟效应，进一步增加了数据标注与质量控制的复杂度。如何从异构传感器流中提取鲁棒特征表示，并保持时空一致性，成为该数据集应用层面的关键挑战。

常用场景

经典使用场景

在机器人操作学习领域，Blue-Snap-Task3_bboxes数据集通过多视角视觉观测与关节状态数据，为模仿学习与行为克隆提供了标准化的训练资源。其包含的顶部摄像头与腕部摄像头视频流，结合六自由度机械臂的动作记录，能够有效支持端到端策略网络的训练过程，特别是在物体抓取与精细操作任务中展现出色性能。

衍生相关工作

基于该数据集衍生的研究包括多模态融合的模仿学习框架、视觉伺服控制算法的改进以及跨域策略迁移方法。这些工作通过利用数据集提供的丰富感官输入与动作标签，开发出能够处理动态环境变化的自适应控制系统，为后续的机器人学习基准数据集构建提供了重要参考范式。

数据集最近研究