grasp_boxes_07

Hugging Face2025-12-05 更新2025-12-06 收录

下载链接：

https://huggingface.co/datasets/IvanLee/grasp_boxes_07

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，包含40个总集数，25767个总帧数，1个总任务数。数据文件大小为100MB，视频文件大小为500MB，帧率为30fps。数据集包含训练集分割（0:40）。数据特征包括动作（6个浮点型关节位置）、观察状态（6个浮点型关节位置）、来自前、侧、顶三个视角的视频观察（480x640分辨率，3通道，30fps）、时间戳、帧索引、集索引、索引和任务索引等。

创建时间：

2025-12-04

原始信息汇总

数据集概述

基本信息

数据集名称: grasp_boxes_07
托管地址: https://huggingface.co/datasets/IvanLee/grasp_boxes_07
创建工具: LeRobot (https://github.com/huggingface/lerobot)
任务类别: 机器人学
标签: LeRobot
许可证: Apache-2.0

数据集规模与结构

总情节数: 40
总帧数: 25767
总任务数: 1
数据块大小: 1000
数据文件大小: 100 MB
视频文件大小: 500 MB
帧率: 30 FPS
数据分割: 训练集 (0:40)

数据文件与路径

数据文件格式: Parquet
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据特征

动作

数据类型: float32
形状: [6]
名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测状态

数据类型: float32
形状: [6]
名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测图像（前视）

数据类型: 视频
形状: [480, 640, 3]
视频高度: 480
视频宽度: 640
视频编解码器: av1
像素格式: yuv420p
是否为深度图: 否
帧率: 30
通道数: 3
包含音频: 否

观测图像（侧视）

数据类型: 视频
形状: [480, 640, 3]
视频高度: 480
视频宽度: 640
视频编解码器: av1
像素格式: yuv420p
是否为深度图: 否
帧率: 30
通道数: 3
包含音频: 否

观测图像（顶视）

数据类型: 视频
形状: [480, 640, 3]
视频高度: 480
视频宽度: 640
视频编解码器: av1
像素格式: yuv420p
是否为深度图: 否
帧率: 30
通道数: 3
包含音频: 否

元数据

时间戳: 数据类型 float32，形状 [1]
帧索引: 数据类型 int64，形状 [1]
情节索引: 数据类型 int64，形状 [1]
索引: 数据类型 int64，形状 [1]
任务索引: 数据类型 int64，形状 [1]

其他信息

代码库版本: v3.0
机器人类型: so101_follower
主页: [More Information Needed]
论文: [More Information Needed]
引用: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人操作领域，高质量的数据集对于推动模仿学习与强化学习算法的进步至关重要。grasp_boxes_07数据集依托LeRobot平台构建，通过SO101 Follower机器人执行单一的抓取任务，系统采集了40条完整操作轨迹，共计25767帧数据。数据以分块形式组织，每块包含1000帧，并分别存储于Parquet格式文件中，同时配有从三个视角（正面、侧面、顶部）同步录制的视频流，帧率为30fps，确保了动作与观测序列在时间上的严格对齐。

特点

该数据集的核心特征在于其多模态与高结构化的数据呈现。它同步提供了机器人的六维关节位置作为动作与状态观测，以及三路高清RGB视频流，形成了丰富的感知-动作对。数据字段经过精心设计，包含时间戳、帧索引、回合索引等元数据，便于进行序列分析与任务划分。所有视频均采用AV1编码，在保证视觉质量的同时优化了存储效率，整体数据结构清晰，易于被机器学习管道直接读取与处理。

使用方法

研究人员可利用该数据集进行机器人抓取策略的模仿学习或离线强化学习研究。数据以标准化的Parquet格式存储，可通过LeRobot或类似工具库便捷加载。由于数据集已预设为训练集，使用者可直接读取特征字典中的动作、状态观测及图像数据，用于训练端到端的控制策略模型。多视角视频为模型提供了互补的视觉上下文，而精确的时间对齐信息则支持基于时序的模型架构开发，为算法验证与比较提供了可靠基准。

背景与挑战

背景概述

在机器人操作领域，模仿学习与强化学习的发展亟需高质量、多模态的真实世界数据集作为支撑。grasp_boxes_07数据集由HuggingFace的LeRobot项目创建，专注于机械臂抓取任务，旨在通过记录六自由度机械臂在抓取箱体过程中的关节状态、多视角视觉观测与动作序列，为机器人技能学习提供实证数据。该数据集包含40个完整交互片段，总计超过2.5万帧数据，融合了前视、侧视与俯视三个角度的同步视频流，其结构化特征设计体现了对机器人状态-动作耦合关系建模的深入考量，为后续算法在复杂操作任务中的泛化能力评估奠定了重要基础。

当前挑战

该数据集致力于解决机器人抓取操作中的策略学习问题，其核心挑战在于如何从高维视觉与状态观测中提取有效特征，以生成精确、稳定的抓取动作序列。具体而言，机械臂在动态环境中的抓取任务需克服感知不确定性、动作连续性与任务泛化性等多重困难。在数据集构建层面，挑战主要体现在多传感器数据的同步采集与对齐、大规模视频数据的高效压缩存储，以及真实物理交互过程中数据噪声的抑制。此外，数据集的规模相对有限，且缺乏详尽的元数据与标注信息，这为模型的训练与验证带来了数据稀缺性与可解释性方面的制约。

常用场景

经典使用场景

在机器人操作领域，grasp_boxes_07数据集以其多视角视觉观测与关节动作的同步记录，为机器人抓取任务的模仿学习提供了经典范例。该数据集通过so101_follower机器人采集了40个完整操作序列，涵盖前、侧、顶三个角度的视频流以及六维关节状态数据，使得研究者能够基于真实世界交互轨迹训练端到端的策略模型，有效模拟复杂环境下的抓取行为。

实际应用

在实际机器人部署中，grasp_boxes_07数据集可直接用于训练工业分拣或物流搬运系统中的抓取控制器。其多视角视觉输入能够增强模型对物体姿态与场景遮挡的鲁棒性，而精确的关节动作数据则有助于生成平滑、可执行的运动轨迹，从而提升自动化抓取系统的成功率与适应性，降低对人工示教的依赖。

衍生相关工作

基于该数据集的多模态特性，衍生了一系列关于视觉-动作表征学习与跨模态对齐的经典研究。例如，结合Transformer架构的序列预测模型被用于从视频帧中推断关节控制命令，同时，该数据集也常作为基准测试工具，评估不同模仿学习算法在真实机器人任务上的样本效率与泛化性能，推动了机器人学习社区的算法创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集