AIRoA MoMa Dataset

Name: AIRoA MoMa Dataset
Creator: 东京大学, AI Robot Association (AIRoA), 丰田汽车公司, Telexistence, Inc., 先进工业科学技术研究所 (AIST), 早稻田大学
Published: 2025-09-30 00:51:47
License: 暂无描述

arXiv2025-09-30 更新2025-11-21 收录

下载链接：

https://hf-mirror.com/datasets/airoa-org/airoa-moma

下载链接

链接失效反馈

官方服务：

资源简介：

AIRoA MoMa 数据集是一个大规模的层次化数据集，用于移动操作。它包含超过 25,000 个场景，涵盖了七个主要任务和 40 多个子任务。该数据集旨在解决移动操作、接触丰富的交互和长期任务等挑战。它包括同步的多模态数据流，包括力-扭矩测量。数据集使用 Human Support Robot (HSR) 收集，并完全标准化为 LeRobot v2.1 格式。AIRoA MoMa 为移动操作提供了关键基准，以促进下一代 Vision-Language-Action 模型的发展。

The AIRoA MoMa dataset is a large-scale hierarchical dataset designed for mobile manipulation. It contains over 25,000 scenarios, covering seven primary tasks and more than 40 subtasks. This dataset aims to address challenges in mobile manipulation, contact-rich interaction, and long-horizon tasks. It includes synchronized multimodal data streams, including force-torque measurements. The dataset was collected using the Human Support Robot (HSR) and is fully standardized to the LeRobot v2.1 format. The AIRoA MoMa dataset provides a critical benchmark for mobile manipulation to advance the development of next-generation Vision-Language-Action models.

提供机构：

东京大学, AI Robot Association (AIRoA), 丰田汽车公司, Telexistence, Inc., 先进工业科学技术研究所 (AIST), 早稻田大学

创建时间：

2025-09-30

搜集汇总

数据集介绍

构建方式

在家庭环境模拟实验室中，通过18名经过培训的操作员使用丰田HSR机器人平台进行数据采集。采用一对一的关节映射遥操作系统（THSR），无需逆向运动学计算即可实现直观控制，确保了复杂操作任务的高效执行。数据以ROSbag格式记录，涵盖超过2.5万个任务片段，总计约94小时，包含视觉、本体感知和力-扭矩等多模态同步数据流。

特点

该数据集以家庭环境中的移动操作为核心，独特整合了接触密集型交互与长时程任务结构。其双层级标注框架将高级自然语言指令与原子化原始动作序列相结合，支持分层学习与细粒度错误分析。同步的六轴腕部力-扭矩信号与双视角RGB图像、关节状态构成多模态观测体系，约6.6%的显式失败案例为错误检测与恢复研究提供了珍贵资源。

使用方法

数据集已标准化为LeRobot v2.1格式，可直接兼容主流视觉-语言-动作模型架构。研究者可通过分层标注实现高级任务规划与底层运动控制的联合训练，力-扭矩信号为接触物理建模提供关键输入。开放的数据处理管道支持自定义过滤与重构，双视角视觉流适用于跨模态表征学习，失败案例标签可用于鲁棒策略的对抗性训练。

背景与挑战

背景概述

随着机器人技术从受控环境向非结构化人类环境过渡，构建能够可靠遵循自然语言指令的通用智能体成为核心挑战。2025年发布的AIRoA MoMa数据集由东京大学与AI机器人协会（AIRoA）联合主导开发，聚焦家庭场景下的移动操作任务。该数据集通过丰田HSR机器人平台采集了25,469条多模态交互轨迹，涵盖烘焙吐司、制作咖啡等七类主要任务，其创新性在于同步整合六维力扭矩传感与双视角视觉数据，并首次引入包含子目标与原子动作的双层标注体系。这一设计为视觉-语言-动作模型提供了接触式交互与长时程任务的关键研究基础，显著推动了移动操作领域的标准化进程。

当前挑战

在移动操作领域，现有数据集普遍面临三大挑战：固定基座机械臂的局限性导致导航与操作协同研究缺失，缺乏力扭矩反馈使接触式交互任务难以建模，短时程任务标注无法支撑复杂任务的层次化分解。构建过程中，团队需攻克多传感器时序同步技术难题，开发无需逆运动学的关节映射遥操作系统以应对HSR机器人4自由度的运动约束，同时通过18名操作员的协同标注确保94小时数据中6.6%失败案例的精细化标注。隐私保护环节通过YOLO检测器实现人体影像自动过滤，最终形成符合LeRobot v2.1标准的可复现数据管道。

常用场景

经典使用场景

在家庭服务机器人研究领域，AIRoA MoMa数据集通过其层次化标注结构和多模态同步数据流，为移动操作任务提供了标准化评估框架。该数据集聚焦于接触密集型任务如悬挂毛巾、操作开关等典型家庭场景，研究者可利用其双视角视觉信号与六维力扭矩数据，训练机器人理解自然语言指令并执行复合动作序列。

解决学术问题

该数据集有效解决了移动操作研究中三大核心难题：通过集成导航与操作的跨模态数据，突破了传统固定基座机械臂的局限；借助力扭矩传感与视觉融合，实现了对接触物理交互的量化分析；其双层标注体系为长时程任务的层次化学习提供了结构化监督，显著提升了动作规划的透明度和可解释性。

衍生相关工作

基于该数据集的特质，研究社区衍生出多项创新工作：包括结合力觉反馈的层次化模仿学习框架、面向长时程任务的动态动作分割算法，以及跨模态表征对齐方法。这些工作进一步推动了Vision-Language-Action模型在复杂环境中的泛化能力与物理交互安全性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集