fmb_dataset_lerobot

Hugging Face2026-02-04 更新2026-02-05 收录

下载链接：

https://huggingface.co/datasets/FedorX8/fmb_dataset_lerobot

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是利用LeRobot创建的，专为机器人学相关任务设计。数据集遵循apache-2.0许可协议，包含8612个episodes，总计1,137,459帧，覆盖24种不同任务。数据以parquet格式存储，视频数据则以mp4格式保存，帧率为10fps。数据集结构包括多个视角的图像观察（image_side_1, image_side_2, image_wrist_1, image_wrist_2），状态观察（observation.state），以及动作（action）等多个字段，每个字段都有详细的数据类型、形状和描述。视频数据的分辨率为256x256，编码格式为av1。此数据集适用于机器人控制、行为克隆、强化学习等任务。

创建时间：

2026-02-02

搜集汇总

数据集介绍

构建方式

在机器人学习领域，大规模、高质量的数据集对于推动算法进步至关重要。fmb_dataset_lerobot 的构建依托于 LeRobot 开源框架，该框架专为机器人数据收集与处理而设计。数据集通过 Franka 机器人平台，在真实或仿真环境中执行了涵盖 24 种不同任务的 8612 条完整轨迹。数据以 10Hz 的频率同步记录多视角视觉观测与机器人状态，并采用高效的 Parquet 文件格式进行存储，视频数据则使用 AV1 编码压缩，确保了数据的高保真度与存储效率。

特点

该数据集在机器人操作数据集中展现出显著的结构化与多模态特性。其核心在于提供了来自四个固定视角（两个侧视与两个腕部）的同步 RGB 视频流，每帧图像分辨率均为 256x256，构成了丰富的视觉观测空间。同时，数据集精确记录了机器人的 8 维状态向量与对应的 7 维动作指令，形成了完整的状态-动作对。数据规模宏大，包含超过 113 万帧样本，并以分块形式组织，便于流式加载与分布式处理，为训练复杂的端到端机器人策略模型提供了坚实的基础。

使用方法

对于旨在利用该数据集的研究者，其使用流程清晰而高效。数据集已预分割为训练集，可通过 Hugging Face 数据集库直接加载。数据以分块索引方式组织，用户可按需读取特定的 Parquet 数据块及其关联的 MP4 视频文件。典型的应用场景包括监督学习，即从观测图像与状态中预测动作；或用于离线强化学习，从历史交互数据中学习策略。研究人员可以便捷地访问 `observation.images`、`observation.state` 和 `action` 等关键字段，构建自己的数据管道，以训练和评估各类机器人控制模型。

背景与挑战

背景概述

在机器人学习领域，高质量、大规模的真实世界交互数据对于推动模仿学习与强化学习算法的进步至关重要。fmb_dataset_lerobot数据集由Hugging Face的LeRobot项目创建，旨在为基于Franka机械臂的机器人操作任务提供丰富的多视角视觉与状态动作轨迹记录。该数据集涵盖了24种不同任务，包含超过8600条完整交互序列和百万级帧数据，其结构化存储与高效编码格式为机器人行为克隆与策略学习研究提供了宝贵资源。通过整合多摄像头观测与精确的关节状态信息，该数据集致力于解决真实场景下机器人技能泛化与自主决策的核心研究问题，对促进开源机器人社区的数据驱动方法发展具有显著影响力。

当前挑战

该数据集所针对的机器人操作领域，长期面临从高维视觉输入到连续动作空间映射的泛化能力挑战，以及跨任务、跨场景的技能迁移难题。构建过程中，数据采集需协调多传感器同步与海量视频流的高效压缩存储，确保时序对齐与数据一致性。同时，标注大规模真实机器人交互轨迹涉及复杂的标定与噪声处理，而设计覆盖多样化任务且平衡数据分布的episode结构，亦对实验设计与工程实现提出了较高要求。

常用场景

经典使用场景

在机器人学习领域，fmb_dataset_lerobot数据集以其丰富的多视角视觉与状态动作序列，为模仿学习与强化学习算法的训练与验证提供了经典场景。该数据集收录了Franka机器人执行24种不同任务的8612条轨迹，包含侧视与腕部摄像头的高帧率视频及精确的关节状态记录，使得研究者能够基于真实世界交互数据，构建端到端的策略模型，模拟机器人从感知到动作的完整决策过程。

衍生相关工作

围绕该数据集，已衍生出一系列专注于机器人视觉运动控制的经典研究工作。这些工作通常利用其多视角视频与状态动作对，开发先进的时空特征提取网络、基于Transformer的序列预测模型，以及离线强化学习算法。此外，该数据集也常被用作基准，用于评估不同模仿学习架构在真实机器人任务上的性能，促进了开源机器人学习生态的繁荣。

数据集最近研究