OmniAction

Hugging Face2025-11-10 更新2025-11-11 收录

下载链接：

https://huggingface.co/datasets/OpenMOSS-Team/OmniAction

下载链接

链接失效反馈

官方服务：

资源简介：

OmniAction是一个大规模多模态数据集，用于机器人操作的上下文指令遵循。它包含141,162个场景，涵盖112种技能和748个对象，并伴有5,096个不同说话人的声音、2,482个非言语声音事件和640个环境背景。数据集包含六种上下文指令类别，适用于捕捉日常环境中的细微情感信号和复杂的多方交互。

创建时间：

2025-10-28

原始信息汇总

OmniAction 数据集概述

数据集基本信息

名称: OmniAction
许可证: CC-BY-NC-4.0
任务类别: 机器人技术
语言: 英语

数据集状态

由于数据集规模较大，目前正在分批上传中
完整数据集将在上传完成后开放访问

数据集规模与内容

总样本量: 141,162个情景
技能覆盖: 112种技能
物体数量: 748个物体
语音多样性: 5,096种不同的说话者音色
非语言声音事件: 2,482种
环境背景: 640种

数据格式与特征

格式: RLDS（强化学习数据集标准）
音频处理: 按文件名排序

上下文指令类型

数据集涵盖六类上下文指令：

情感线索
重叠语音
非语言线索
身份线索
二元对话
三元对话

研究背景

该数据集针对机器人操作中的主动意图识别任务而构建，解决了当前缺乏训练数据的问题。数据集捕捉了日常环境中的微妙情感信号和复杂多方交互。

相关资源

论文: https://arxiv.org/pdf/2510.23763
网站: https://OpenMOSS.github.io/RoboOmni
模型: https://huggingface.co/fnlp/RoboOmni
代码: https://github.com/OpenMOSS/RoboOmni

搜集汇总

数据集介绍

构建方式

在机器人操作领域，OmniAction数据集的构建采用了多模态融合策略，通过整合视觉、听觉及语言信号，系统收集了涵盖112种技能与748种对象的14.1万条交互片段。数据采集过程纳入了5096种不同说话者音色、2482类非语言声音事件及640种环境背景，并依据六类上下文指令类型进行结构化标注，包括情感提示与多轮对话等场景，确保了数据在真实环境中的代表性与复杂性。

使用方法

研究者在应用OmniAction时，可依据RLDS格式直接加载数据流，并利用其多模态对齐特性进行端到端模型训练。数据集支持机器人意图识别、交互确认与动作执行的联合学习，用户可通过整合音频排序与视觉时空融合策略，构建如RoboOmni框架的感知-决策-执行管道，从而在仿真与实体机器人平台上验证主动辅助任务的性能。

背景与挑战

背景概述

随着多模态大语言模型在机器人操作领域的快速发展，视觉-语言-动作模型已成为研究热点。然而现有方法主要依赖显式指令驱动，与现实场景中人类通过环境线索隐式传递意图的模式存在显著差距。为此研究团队于2025年提出RoboOmni框架，并同步构建OmniAction数据集，该数据集包含14.1万条跨模态交互样本，涵盖112种操作技能与748类物体，通过融合语音对话、环境声响与视觉线索构建起全模态语境理解的新范式，为机器人主动意图推断研究奠定了数据基础。

当前挑战

在领域问题层面，机器人操作需突破传统显式指令的局限，实现跨模态语境下的意图识别，这要求模型同时处理非言语声学事件、多说话人对话等复杂信号。数据集构建过程中面临多源数据对齐的挑战，需协调5,096种说话人音色、2,482类环境声事件与640种背景视觉场景的时空同步，同时确保六类情境指令（包括情感线索、重叠语音等）在真实环境中的语义一致性。

常用场景

经典使用场景

在机器人操作领域，OmniAction数据集为多模态意图识别研究提供了关键支持。该数据集通过融合语音对话、环境声音和视觉线索构建跨模态上下文指令，使机器人能够主动推断用户意图而非依赖显式命令。其涵盖的六类上下文指令——包括情感暗示、重叠语音和非语言线索等——为模型训练提供了丰富的多模态交互场景，显著提升了机器人在复杂环境中的感知与决策能力。

解决学术问题

该数据集有效解决了多模态融合与主动意图识别两大核心学术难题。通过整合14万条包含112种技能和748种物体的交互数据，填补了机器人操作领域缺乏主动意图识别训练数据的空白。其构建的六类上下文指令体系突破了传统文本指令的局限性，为研究环境声音与视觉信号在时空维度上的融合机制提供了标准化基准，推动了具身智能领域的基础理论发展。

实际应用

在实际应用层面，基于OmniAction训练的模型可部署于智能家居、医疗陪护等需要自然交互的场景。机器人通过解析对话中的情感韵律、环境声响等隐式信号，能主动提供物品递送、危险预警等服务。这种基于多模态上下文理解的主动协助机制，显著提升了人机协作的流畅度与安全性，为服务机器人走向实际落地提供了关键技术支撑。

数据集最近研究