mang_gom

Hugging Face2025-12-21 更新2025-12-22 收录

下载链接：

https://huggingface.co/datasets/mingging/mang_gom

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot创建，与机器人技术相关。包含83个片段，20610帧和2个任务，数据以parquet格式存储，视频以mp4格式存储。特征包括动作、观察（状态和来自两个摄像头的图像）、时间戳、帧索引、片段索引和任务索引。数据集采用Apache 2.0许可证。

This dataset was created using LeRobot and is related to robotics. It contains 83 segments, 20610 frames, and 2 tasks. The data is stored in Parquet format, while the videos are stored in MP4 format. Its features include actions, observations (state and images from two cameras), timestamps, frame indices, segment indices, and task indices. This dataset is licensed under Apache 2.0.

创建时间：

2025-12-20

原始信息汇总

数据集概述

基本信息

数据集名称： mingging/mang_gom
创建工具： LeRobot (https://github.com/huggingface/lerobot)
许可证： Apache-2.0
任务类别： 机器人学
标签： LeRobot

数据集规模与结构

总任务数： 2
总情节数： 83
总帧数： 20610
数据文件大小： 100 MB
视频文件大小： 500 MB
数据块大小： 1000
帧率： 30 FPS
数据分割： 训练集 (0:83)

数据特征

数据以Parquet文件格式存储，包含以下特征：

动作

数据类型： float32
形状： [6]
维度名称：
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测状态

数据类型： float32
形状： [6]
维度名称： 与动作特征相同

观测图像 (camera1)

数据类型： 视频
形状： [480, 640, 3] (高度，宽度，通道)
视频信息：
- 高度：480
- 宽度：640
- 编解码器：av1
- 像素格式：yuv420p
- 非深度图
- 帧率：30
- 通道数：3
- 无音频

观测图像 (camera2)

数据类型： 视频
形状： [480, 640, 3] (高度，宽度，通道)
视频信息： 与camera1相同

元数据

时间戳： float32, 形状 [1]
帧索引： int64, 形状 [1]
情节索引： int64, 形状 [1]
索引： int64, 形状 [1]
任务索引： int64, 形状 [1]

文件路径模式

数据文件： data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件： videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

代码库版本

版本： v3.0

机器人类型

类型： so101_follower

引用信息

主页： [More Information Needed]
论文： [More Information Needed]
BibTeX引用： [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人技术领域，数据集的构建往往依赖于实际物理系统的交互记录。mang_gom数据集通过LeRobot平台采集，涵盖了83个完整任务片段，总计20610帧数据，以30帧每秒的速率捕捉机器人执行动作的过程。数据以分块形式存储于Parquet文件中，每块包含1000帧，确保了高效的数据管理与访问。该数据集整合了来自两个摄像头的视觉信息，以及机器人关节状态与动作指令，形成了多模态的时序记录，为机器人学习研究提供了丰富的实验素材。

特点

mang_gom数据集的特点体现在其多维度的数据表征上。它不仅包含了机器人六个关节的位置状态与动作指令，还同步记录了双摄像头采集的RGB视频流，每帧图像分辨率为640x480，编码格式为AV1。数据集结构清晰，通过帧索引、片段索引与任务索引实现了数据的层次化组织，便于研究者按需提取特定情境下的交互序列。此外，数据以轻量级的Parquet格式存储，兼顾了存储效率与读取速度，适合大规模机器学习模型的训练与验证。

使用方法

使用mang_gom数据集时，研究者可通过LeRobot提供的工具链加载数据，并依据meta/info.json中的结构描述访问各字段。数据按训练集划分，涵盖全部83个任务片段，可直接用于机器人策略学习、行为克隆或强化学习算法的训练。视觉数据以视频文件形式存储，可通过标准视频解码库读取，并与状态动作数据对齐。数据集的时序一致性保证了每一帧都带有精确的时间戳与帧索引，支持复杂的时间序列建模与多模态融合分析。

背景与挑战

背景概述

在机器人学习领域，高质量的真实世界交互数据对于推动模仿学习与强化学习算法的实际应用至关重要。mang_gom数据集由HuggingFace的LeRobot项目创建，专注于采集真实机器人操作任务中的多模态交互数据。该数据集通过so101_follower机器人平台，记录了包含关节位置、视觉图像及时间戳在内的丰富传感器信息，旨在为机器人技能学习提供大规模、结构化的训练资源。尽管其具体创建时间与核心研究团队未在文档中明确披露，但依托LeRobot开源框架，该数据集体现了当前机器人社区对可复现、标准化数据集的迫切需求，有望促进机器人控制策略从仿真环境向物理实体的平稳迁移。

当前挑战

mang_gom数据集致力于解决机器人操作任务中的技能泛化与多模态感知融合问题，其核心挑战在于如何从有限的真实世界交互数据中学习鲁棒且可迁移的控制策略。具体而言，数据集中仅包含83个交互片段与2种任务类型，样本多样性不足可能限制模型应对复杂环境变化的能力。在构建过程中，面临多传感器数据的高效同步与大规模存储难题，例如需协调关节编码器与双摄像头视觉流的时间对齐，并处理高达数百兆字节的视频与结构化数据，这对数据采集系统的实时性与后期处理流程提出了严峻考验。

常用场景

经典使用场景

在机器人学习领域，mang_gom数据集以其丰富的多模态数据为机器人控制算法的训练提供了理想平台。该数据集包含83个完整任务片段，涵盖超过两万帧的视觉与关节状态信息，常用于训练模仿学习或强化学习模型，使机器人能够从人类示范中学习复杂的操作技能，例如物体抓取或环境导航。其结构化数据格式便于直接应用于端到端的策略学习框架，推动了机器人自主行为生成的研究。

衍生相关工作

围绕mang_gom数据集，已衍生出多项经典研究工作，主要集中在机器人模仿学习与视觉运动策略优化领域。这些工作利用数据集的序列化观测与动作对，开发了先进的神经网络架构，如时空注意力模型与分层强化学习框架。部分研究进一步扩展了数据集的用途，探索了跨任务迁移与少样本学习，为机器人通用能力的发展奠定了实证基础。

数据集最近研究