DatasetDemo

Hugging Face2025-12-24 更新2025-12-25 收录

下载链接：

https://huggingface.co/datasets/motus-robotics/DatasetDemo

下载链接

链接失效反馈

官方服务：

资源简介：

该存储库作为演示数据集，展示了训练Motus模型所需的数据格式。它提供了数据结构的参考，以确保与训练管道的兼容性。演示数据来自Robotwin-clean基准测试。数据按照数据集名称、任务名称（可选）和数据类型进行组织。包含的视频数据是机器人轨迹的视频，元数据包含与片段对应的语言指令，umt5_wan包含使用Wan的T5编码器编码的语言指令嵌入，qpos包含原始动作信息，latent_action_dim14包含从原始数据派生的压缩潜在动作表示，optical_flow包含用于生成latent_action_dim14文件的中间表示（光流）。数据在训练的不同阶段使用不同的数据类型。

创建时间：

2025-12-18

原始信息汇总

Motus Training Dataset Demo 数据集概述

数据集简介

此数据集是一个演示数据集，用于说明训练 Motus 模型所需的数据格式。它提供了数据结构的参考，以确保与训练流程的兼容性。演示数据来源于 Robotwin-clean 基准测试。

目录结构

数据通常按照 数据集名称、任务名称（可选）和 数据类型 的层次结构组织。

标准格式： {dataset_name}/{task_name}/{data_type}/<data_files>

简化格式（无任务名称）： {dataset_name}/{data_type}/<data_files>

数据类型与描述

以下目录包含模型不同方面所需的特定数据类型。文件通常使用唯一的 {episode_id} 命名。

1. `videos`

格式： {episode_id}.mp4
描述： 包含机器人的视频轨迹。
注意： 对于 Robotwin 数据集，这些视频由三个不同的摄像机视图拼接而成。

2. `metas`

格式： {episode_id}.txt
描述： 包含与片段对应的语言指令。
结构： 为增强指令多样性，每个文本文件包含多行。每行代表指令的一种不同表述，但语义相同。

3. `umt5_wan`

格式： {episode_id}.pt
描述： 使用来自 "Wan" 的原始 T5 编码器编码的语言指令嵌入。
结构： 一个 List，其长度等于对应 metas 文件中的行数。
形状： 列表中的每个元素形状为 [L, 4096]，代表单行指令的编码。

4. `qpos`

格式： {episode_id}.pt
描述： 包含原始动作信息，例如机器人关节角度或末端执行器位置。
形状： [T, D]，其中：
- T：轨迹长度（时间步长）。
- D：机器人自由度。

5. `latent_action_dim14`

格式： {episode_id}.pt
描述： 从原始数据推导出的压缩潜在动作表示。

6. `optical_flow`

描述： 该文件夹包含用于生成 latent_action_dim14 文件的中间表示（光流）。
用途： 这些文件在训练阶段不直接使用。虽然我们使用 DPFlow，但您可以使用任何方法从视频中提取光流并将其压缩为低维表示。

各训练阶段的数据使用

Motus 训练流程分为三个阶段，每个阶段使用上述特定的数据类型子集。

阶段	描述	所需数据类型
阶段 1	视频预训练	`videos`, `umt5_wan`
阶段 2	潜在动作预训练	`videos`, `umt5_wan`, `latent_action_dim14`
阶段 3	特定具身智能体微调	`videos`, `umt5_wan`, `qpos`

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集是模型训练的基础。Motus Training Dataset Demo的构建遵循了结构化的数据组织原则，其数据来源于Robotwin-clean基准测试。该数据集采用层级目录结构进行管理，通常按照数据集名称、任务名称（可选）和数据类型进行划分。具体数据文件以唯一的episode_id命名，涵盖了视频轨迹、语言指令、嵌入表示、原始动作及潜在动作等多种模态，确保了数据格式的统一性与模型训练管道的兼容性。

使用方法

针对Motus模型的分阶段训练流程，该数据集的使用方法具有明确的指向性。在视频预训练阶段，模型主要利用`videos`和`umt5_wan`目录下的数据，学习视觉与语言指令的关联。进入潜在动作预训练阶段，则需要额外引入`latent_action_dim14`中的压缩动作表征。最后，在针对特定具身智能体的微调阶段，训练将依赖于`videos`、`umt5_wan`以及包含原始机器人动作信息（如关节角度）的`qpos`数据。这种按阶段配置数据的方式，使得训练过程能够循序渐进，高效地整合多模态信息。

背景与挑战

背景概述

在机器人学习与具身智能领域，如何使机器人通过视觉观察与语言指令来理解和执行复杂任务，是当前研究的核心难题。Motus Training Dataset Demo作为Motus模型的演示数据集，其构建依托于Robotwin-clean基准，旨在为多模态机器人技能学习提供标准化的数据格式参考。该数据集由相关研究团队开发，聚焦于解决机器人视频轨迹、语言指令与动作表示之间的对齐问题，通过整合视频、元数据、预训练嵌入及原始动作信息，为后续模型的训练与评估奠定了数据基础，推动了视觉-语言-动作联合建模方法的发展。

当前挑战

该数据集旨在应对机器人技能学习中视觉-语言-动作多模态对齐的挑战，其核心问题在于如何从异构数据源中提取并融合有效的时空与语义表征，以支持机器人对开放世界任务的泛化理解与执行。在构建过程中，挑战主要体现在数据标准化与处理复杂性上：需要将多视角视频流、多样化的语言指令描述以及高维度的机器人动作数据（如关节角度与潜在动作表示）进行精确对齐与统一格式化；同时，生成光学流等中间表示并压缩为低维潜在空间，也对计算资源与算法设计提出了较高要求。

常用场景

经典使用场景

在机器人学习领域，Motus Training Dataset Demo作为示范数据集，其经典使用场景在于为训练Motus模型提供标准化的数据格式参考。该数据集通过组织视频轨迹、语言指令及动作表示等多模态数据，支持研究人员构建兼容的训练流程，尤其在模仿学习与视觉-语言-动作对齐任务中，为模型预训练与微调提供了结构化的数据基础。

解决学术问题

该数据集主要解决了机器人学习中多模态数据融合与标准化处理的学术难题。通过提供包含视频、语言指令嵌入及潜在动作表示的统一格式，它促进了跨模态表示学习的研究，助力于解决指令理解与动作生成的语义对齐问题，对推动具身智能与机器人控制领域的理论发展具有重要影响。

实际应用

在实际应用中，该数据集可直接用于机器人技能学习系统的开发与优化。例如，在工业自动化或服务机器人场景中，基于其提供的视频与动作数据，能够训练模型执行复杂的操作任务，如物体抓取或装配，同时通过语言指令嵌入实现自然的人机交互，提升机器人在真实环境中的适应性与执行效率。

数据集最近研究

DatasetDemo

Motus Training Dataset Demo 数据集概述

数据集简介

目录结构

数据类型与描述

1. videos

2. metas

3. umt5_wan

4. qpos

5. latent_action_dim14

6. optical_flow