mutil_mode_data

Hugging Face2026-04-17 更新2026-04-18 收录

下载链接：

https://huggingface.co/datasets/rollingoat/mutil_mode_data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集专注于机器人学习任务，包含三个具体操作：传递刀具、推动方块以及将物品放入盒子。每种操作包含多种模式，例如传递刀具时刀锋朝向的不同方向，每种模式均有特定数量的演示数据（如传递刀具有35次演示，推动方块有50次，放置物品有30次）。数据集原始格式为HDF5记录，经过同步处理后转换为LeRobot v2.1格式，适用于机器人训练。处理流程包括同步图像和低维数据、生成同步预览视频以及最终格式转换。数据集处理需要特定环境配置，包括Python 3.10或3.11及特定版本的LeRobot库。

创建时间：

2026-04-16

原始信息汇总

数据集概述

数据集基本信息

数据集名称: rollingoat/mutil_mode_data
数据集地址: https://huggingface.co/datasets/rollingoat/mutil_mode_data

数据内容描述

数据集包含三个机器人操作任务，每个任务有多个模式。

任务一：传递刀具

任务描述: pass the knife
模式数量: 3
模式详情:
1. 传递刀具，锋利端指向人。
2. 传递刀具，手柄指向人，锋利端指向右。
3. 传递刀具，手柄指向人，锋利端指向左。
每个模式的演示数量: 35

任务二：推动方块

任务描述: push the block
模式数量: 2
模式详情:
1. 从左侧推动方块。
2. 从右侧推动方块。
每个模式的演示数量: 50

任务三：将物品放入盒子

任务描述: put items in the box
模式数量: 3
模式详情:
1. 按黑色盒子、草莓、蓝色盒子的顺序放入。
2. 按蓝色盒子、黑色盒子、草莓的顺序放入。
3. 按草莓、黑色盒子、蓝色盒子的顺序放入。
每个模式的演示数量: 30

数据处理流程

数据集原始格式为机器人HDF5记录，通过特定处理流程转换为LeRobot v2.1格式用于训练。

处理步骤

同步图像与低维数据
- 脚本: sync_image_low_dim.py
- 输入: 原始图像HDF5文件、原始低维数据HDF5文件。
- 功能: 将图像HDF5和低维数据HDF5合并为一个同步文件。以图像时间戳为主时间线，通过最近时间戳对齐低维数据样本。处理零值时间戳、时间戳突变和非重叠区间等问题，受影响的任务演示将被跳过。输出中的演示被重命名为连续的索引（demo_0, demo_1, …）。
可视化同步数据
- 脚本: visualize_synced_data.py
- 功能: 将每个演示渲染为MP4预览视频，可并排显示选定的相机视图，并可选择将低维数据作为文本叠加在画面上。用于在LeRobot转换前检查同步结果。
转换为LeRobot v2.1格式
- 脚本: convert_synced_h5_to_lerobot.py
- 功能: 将同步的HDF5文件直接转换为LeRobot v2.1格式的数据集。
- 关键参数:
  - --fps / --source-fps: 目标帧率和源帧率。
  - --image-map: 将HDF5图像键重命名为LeRobot特征名称。
  - --state-keys: 将这些低维数据集连接成单个state向量。
  - --action-source: 当HDF5没有actions数据集时，使用下一个状态作为动作。
  - --image-size: 调整图像大小。
  - --task: 与每一帧存储的语言指令。

输出格式

转换后的LeRobot v2.1数据集文件夹结构如下：

<output-dir>/ meta/ # 包含 info.json, episodes.jsonl, tasks.jsonl, episodes_stats.jsonl data/ # 包含 chunk-000/episode_<6digit>.parquet

环境依赖与注意事项

LeRobot版本要求: 数据处理脚本依赖于特定版本的LeRobot库（提交0cf864870cf29f4738d3ade893e6fd13fbd7cdb5，报告版本为0.1.0），以生成与OpenPI（Pi-0 / Pi-0.5）兼容的v2.1格式数据集。不建议升级LeRobot，除非下游训练代码也相应升级。
Python版本: 推荐使用Python 3.10，3.11也可工作。

搜集汇总

数据集介绍

构建方式

在机器人操作任务领域，多模态数据集的构建需兼顾视觉与低维状态信息的精确同步。本数据集通过整合原始图像HDF5与低维状态HDF5文件，采用时间戳对齐策略，以图像时间线为主轴，将低维数据通过最近邻匹配实现同步。处理流程涵盖数据清洗、异常时间戳跳变处理以及非重叠区间的智能跳过，确保每个演示片段的数据连贯性。输出文件经过重新索引，形成无间隔的连续演示序列，为后续模型训练提供结构化的多模态输入。

特点

该数据集聚焦于机器人操作任务，涵盖传递刀具、推动积木及物品装箱三类核心场景，每类任务下设多种操作模式，例如传递刀具时区分刀尖朝向。数据集融合了高帧率图像流与机器人关节位置、夹爪状态等低维观测数据，实现了多视角视觉信息与精确状态向量的同步记录。其设计支持灵活的子采样与帧率调整，便于适配不同计算需求，同时提供可视化工具以验证数据对齐质量，确保多模态表征的可靠性与一致性。

使用方法

为高效利用该数据集，用户需遵循三步处理流程：首先运行同步脚本，将原始图像与低维数据合并为时序对齐的HDF5文件；随后借助可视化工具生成演示预览，直观检验数据质量；最终通过格式转换脚本，将同步数据转化为LeRobot v2.1标准格式，其中可指定目标帧率、图像尺寸及状态向量构成。转换后的数据集可直接用于机器人策略学习，支持语言指令嵌入，并兼容HuggingFace平台的上传与共享。

背景与挑战

背景概述

在机器人学习领域，多模态数据集的构建对于推动具身智能与机器人操作技能的发展至关重要。mutil_mode_data数据集应运而生，旨在通过整合视觉观察与低维状态信息，为机器人模仿学习与策略训练提供高质量的示范数据。该数据集由HuggingFace社区的研究人员基于LeRobot框架创建，其核心研究问题聚焦于如何使机器人精准执行包含多种操作模式的复杂任务，例如安全传递刀具、推动物体以及按序放置物品。通过提供结构化的多任务演示，该数据集为机器人行为克隆与强化学习算法的验证与优化奠定了坚实基础，显著提升了机器人对多样化操作场景的适应能力。

当前挑战

mutil_mode_data数据集致力于解决机器人操作任务中的多模态学习挑战，特别是在处理包含多种执行模式的复杂技能时，如何从异构传感器数据中提取有效特征并实现鲁棒的行为泛化。在数据集构建过程中，研究人员面临同步高维图像流与低维状态数据的时序对齐难题，需克服原始记录中时间戳跳变与非重叠区间带来的数据不一致性。此外，为确保数据格式与下游训练框架兼容，需将同步后的数据精确转换为特定版本的LeRobot格式，这一过程涉及严格的帧率调整、图像重命名与状态向量重构，任何偏差均可能导致模型训练失效。

常用场景

经典使用场景

在机器人学习领域，多模态数据集mutil_mode_data为模仿学习与强化学习算法提供了丰富的训练资源。该数据集通过记录机器人执行三项精细操作任务——传递刀具、推动积木和物品装箱——的视觉与低维状态数据，构建了同步的多模态观测序列。研究者通常利用这些数据训练端到端的策略网络，使机器人能够从人类演示中学习复杂的操作技能，并在不同任务模式下泛化其行为。

实际应用

在实际机器人部署中，mutil_mode_data支持了家庭服务机器人或工业协作机器人的技能编程。例如，基于该数据训练的模型可使机器人安全地传递刀具，避免尖锐端指向人类；或在仓储分拣场景中，灵活调整物品放入容器的顺序。这些能力直接提升了机器人在人机协作环境中的安全性、效率与自主性，降低了传统示教编程的复杂度。

衍生相关工作

围绕该数据集格式与内容，衍生了一系列经典研究工作。例如，基于LeRobot框架的模仿学习算法开发，利用其v2.1数据格式实现了高效策略训练与部署。同时，该数据集也催生了针对多任务泛化的研究，如通过序列建模学习不同传递方向或摆放顺序的共享表征，进而推动了机器人操作策略的模块化与可复用性探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集