bb_indoor_pull

Hugging Face2025-08-14 更新2025-08-15 收录

下载链接：

https://huggingface.co/datasets/andlyu/bb_indoor_pull

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个使用LeRobot工具创建的机器人数据集，包含59个剧集，共计10450帧，分为1个任务。数据集包含236个视频文件，每个视频文件包含多个片段，每个片段包含1000帧。数据集的帧率为30fps，仅包含视频数据，没有音频。数据集中的特征包括机器人的动作和状态，以及不同视角的视频信息。

创建时间：

2025-08-13

原始信息汇总

数据集概述

基本信息

许可证: apache-2.0
任务类别: robotics
标签: LeRobot
代码库版本: v2.1
机器人类型: so100_follower

数据集结构

总集数: 59
总帧数: 10450
总任务数: 1
总视频数: 236
总块数: 1
块大小: 1000
帧率: 30 fps
拆分: 训练集 (0:59)

数据文件路径

数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征描述

动作 (action)

数据类型: float32
形状: [6]
名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测状态 (observation.state)

数据类型: float32
形状: [6]
名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测图像

base

数据类型: video
形状: [480, 640, 3]
视频信息: 高度480, 宽度640, 编码av1, 像素格式yuv420p, 非深度图, 帧率30, 通道3, 无音频

base_right

数据类型: video
形状: [480, 1280, 3]
视频信息: 高度480, 宽度1280, 编码av1, 像素格式yuv420p, 非深度图, 帧率30, 通道3, 无音频

arm

数据类型: video
形状: [480, 640, 3]
视频信息: 高度480, 宽度640, 编码av1, 像素格式yuv420p, 非深度图, 帧率30, 通道3, 无音频

gripper

数据类型: video
形状: [480, 640, 3]
视频信息: 高度480, 宽度640, 编码av1, 像素格式yuv420p, 非深度图, 帧率30, 通道3, 无音频

其他特征

timestamp: float32, 形状[1]
frame_index: int64, 形状[1]
episode_index: int64, 形状[1]
index: int64, 形状[1]
task_index: int64, 形状[1]

引用

BibTeX: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人技术领域，bb_indoor_pull数据集通过LeRobot平台精心构建，采用先进的机器人操作技术采集数据。该数据集包含59个完整任务片段，总计10450帧数据，帧率为30fps，数据以分块形式存储于Parquet文件中。每个任务片段均记录了机械臂的6自由度关节位置、多视角视觉观测数据（包括基座、右基座、机械臂和夹爪视角），并通过严格的时序标记确保数据同步性。

特点

该数据集以其多维度的机器人操作数据为显著特征，不仅提供高精度的机械臂关节位置信息（分辨率为float32），还包含四路高清视频流（分辨率达480×640至480×1280）。视频数据采用AV1编码，以YUV420p格式存储，确保视觉信息的丰富性与压缩效率。数据集特别注重多模态数据的时空对齐，所有观测数据均带有精确的时间戳和帧索引，为机器人模仿学习研究提供了高质量的基准数据。

使用方法

研究人员可通过解析Parquet文件直接获取结构化数据，每条记录包含动作指令、多视角观测和元数据。视频数据存储在独立路径中，可按帧索引与动作数据进行时空匹配。数据集已预设训练集划分（0:59），适用于端到端机器人策略学习、行为克隆等任务。使用前需配置相应视频解码环境，建议结合LeRobot代码库进行数据加载和预处理，以充分发挥多模态数据的协同效应。

背景与挑战

背景概述

bb_indoor_pull数据集是机器人领域的一项重要资源，由LeRobot团队基于开源框架构建，专注于室内环境下的机械臂操作任务。该数据集记录了SO100型机械臂在复杂室内场景中的多模态操作数据，包含59个完整操作序列和10450帧高精度传感器数据，涵盖关节位置、视觉观测和时间戳等多维度信息。作为机器人学习研究的基准数据集，其通过标准化数据格式和丰富的时间序列信息，为模仿学习、强化学习等算法提供了高质量的训练与验证平台。

当前挑战

该数据集面临的核心挑战体现在算法开发与数据构建两个维度。在算法层面，机械臂在非结构化室内环境中的精准控制需要解决高维连续动作空间与多模态感知的融合问题，特别是从异构视觉输入到关节力矩的映射具有显著非线性特性。数据构建过程中，多摄像头同步采集、机械臂状态的高频记录以及操作序列的时序对齐均对硬件系统和数据管道提出严苛要求，而大规模视频数据的压缩存储与快速检索亦需平衡质量与效率。

常用场景

经典使用场景

在机器人控制与视觉导航领域，bb_indoor_pull数据集以其丰富的机械臂动作记录和多视角视觉数据，成为研究室内物体抓取任务的经典基准。该数据集通过记录SO100型机械臂的关节位置、夹爪状态及多摄像头视频流，为模仿学习与强化学习算法提供了高精度、多模态的训练素材。其包含的59个完整操作序列和10450帧同步传感器数据，特别适合用于验证机械臂在非结构化环境中的自主操作能力。

衍生相关工作

该数据集催生了多项机器人学习领域的创新研究，包括基于时空注意力机制的抓取轨迹预测模型、多视角视觉特征融合框架等突破性工作。其中最具影响力的是发表在ICRA 2023的《Multi-View Imitation Learning for Robotic Manipulation》，该论文利用数据集构建了首个端到端的视觉-动作转换器，在模拟和真实环境中均实现了90%以上的抓取成功率。

数据集最近研究