OWMM-Agent-data

Hugging Face2025-06-09 更新2025-06-10 收录

下载链接：

https://huggingface.co/datasets/hhyrhy/OWMM-Agent-data

下载链接

链接失效反馈

官方服务：

资源简介：

OWMM-Agent数据集是用于训练OWMM模型的数据集，包含了多模态代理在开放世界移动操作任务中的场景帧和代理状态信息，用于机器人的决策和动作控制。

创建时间：

2025-05-30

搜集汇总

数据集介绍

构建方式

在开放世界移动操作领域，数据集的构建采用了创新的多模态智能体数据合成流程。该流程通过在模拟环境中系统性地收集机器人状态、多视角场景帧及动作序列，并利用功能调用机制生成精细标注。每一组数据均融合了全局场景理解与局部状态追踪，通过指令微调策略将视觉语言模型适配至特定任务域，确保数据在语义层面与机器人控制需求的高度一致性。

使用方法

数据集专为微调视觉语言模型设计，需与InternVL2.5系列基模型配合使用。使用者可通过加载多模态输入流（包括全景图像、机器人状态及指令），训练模型生成对应的功能调用序列以控制机器人行为。该数据集支持模拟器与真实世界的双重评估，提供标准化的数据加载接口与评估脚本，确保复现性与下游任务的平滑迁移。

背景与挑战

背景概述

随着导航、操纵与视觉模型的飞速发展，移动机械臂已在诸多专业任务中展现出卓越能力。然而，开放世界移动操纵（OWMM）任务因其需应对开放指令与环境的泛化需求，以及整合高层决策与底层机器人控制的系统复杂性，依然面临严峻挑战。为应对这一挑战，研究团队于2024年提出了OWMM-Agent数据集，由相关领域研究者开发，旨在通过多模态智能体架构与数据合成管道，推动移动操纵领域向开放世界场景的演进，为全球场景理解与状态跟踪提供统一解决方案。

当前挑战

该数据集核心挑战在于解决开放世界移动操纵中的领域适应与系统集成问题。具体而言，领域挑战涉及模型在未知指令与环境下的泛化能力不足，以及多模态动作生成的精确性；构建挑战则源于多视角场景帧与智能体状态的融合复杂性，需克服领域偏移导致的幻觉现象，并通过指令微调优化视觉语言模型的任务适应性。

常用场景

经典使用场景

在机器人开放世界移动操作研究中，OWMM-Agent-data数据集为多模态智能体训练提供了核心支持。该数据集通过合成多视角场景帧与智能体状态数据，使模型能够同时处理环境感知、状态跟踪与动作生成任务，典型应用于模拟器与真实世界的移动操作策略验证。

解决学术问题

该数据集有效解决了开放世界移动操作中指令泛化与系统集成两大核心难题。通过多模态数据合成与指令微调，显著降低了领域偏移导致的幻觉现象，为构建兼具全局场景理解与实时状态跟踪的统一模型提供了数据基础，推动了具身智能领域的范式创新。

实际应用

实际应用中，该数据集支撑的模型已部署于家庭服务与工业自动化场景，实现了对开放指令的鲁棒响应。例如移动机械臂能够根据“请将餐桌上的杯子拿到厨房”这类复杂指令，自主完成导航、识别与抓取操作，展现了多任务协同的实际价值。

数据集最近研究