OmniAction

Name: OmniAction
Creator: Fudan NLP
Published: 2025-10-29 09:13:01
License: 暂无描述

Hugging Face2025-10-29 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/fnlp/OmniAction

下载链接

链接失效反馈

官方服务：

资源简介：

OmniAction是一个大规模的多模态数据集，用于上下文指令的跟随。它包含了141,162个场景，涵盖了112种技能和748个对象，并丰富了5,096种不同的说话人声音、2,482种非语言声音事件和640种环境背景。数据集覆盖了六种类型的上下文指令，包括情感线索、重叠声音、非语言线索、身份线索、二元对话和三元对话，捕捉了日常环境中的微妙情感信号和复杂的多人互动。

提供机构：

Fudan NLP

创建时间：

2025-10-28

原始信息汇总

OmniAction 数据集概述

数据集基本信息

许可证: CC-BY-NC-4.0
任务类别: 机器人技术
语言: 英语

数据集状态

由于数据集规模较大，目前正在分批上传
完整数据集将在上传完成后开放访问

数据集规模与内容

总样本量: 141,162个片段
技能覆盖: 112种技能
物体覆盖: 748个物体
语音多样性: 5,096种不同的说话者音色
非语言声音事件: 2,482种
环境背景: 640种

上下文指令类型

数据集涵盖六类上下文指令：

情感线索
重叠语音
非语言线索
身份线索
二元对话
三元对话

技术规格

数据格式: RLDS（强化学习数据集标准）
音频处理: 按文件名排序

引用信息

bibtex @article{wang2025roboomni, title={RoboOmni: Proactive Robot Manipulation in Omni-modal Context}, author={Siyin Wang and Jinlan Fu and Feihong Liu and Xinzhe He and Huangxuan Wu and Junhao Shi and Kexin Huang and Zhaoye Fei and Jingjing Gong and Zuxuan Wu and Yugang Jiang and See-Kiong Ng and Tat-Seng Chua and Xipeng Qiu}, journal={arXiv preprint arXiv:2510.23763}, year={2025}, url={https://arxiv.org/abs/2510.23763}, archivePrefix={arXiv}, primaryClass={cs.RO}, }

搜集汇总

数据集介绍

构建方式

在机器人主动操作研究领域，OmniAction数据集通过精心设计的跨模态情境指令框架构建而成。该数据集收录了141,162个交互片段，涵盖112种操作技能和748种物体类型，并融合了5,096种不同说话者音色、2,482种非语言声音事件以及640种环境背景。数据采集采用六类情境指令范式，包括情感线索、重叠语音、非语言提示、身份特征、二元对话和三元对话，全面捕捉日常场景中的微妙情感信号和复杂多方互动。

特点

该数据集最显著的特征在于其多模态属性的深度融合。不仅包含常规的视觉和语言模态，还特别强化了听觉模态的丰富性，通过大量非语言声音事件和环境背景音构建了立体感知空间。数据集的指令类型设计突破了传统显式指令的局限，专注于隐含意图的识别与理解，为机器人主动认知研究提供了前所未有的测试平台。其规模之大、模态之全、场景之丰富，在当前机器人操作数据集中堪称翘楚。

使用方法

研究人员可通过RLDS标准格式访问该数据集，该格式专为强化学习任务优化设计。使用时应首先加载多模态数据流，包括视觉序列、音频波形和文本标注。建议采用端到端的多模态融合架构处理数据，特别关注跨模态时序对齐问题。数据集支持从单一模态到全模态的渐进式实验设计，便于研究者系统评估不同模态对意图识别和操作执行的影响。实际应用中需注意数据批处理策略，以应对大规模多模态数据的内存挑战。

背景与挑战

背景概述

随着多模态大语言模型的快速发展，视觉-语言-动作模型在机器人操作领域取得了显著进展。由OpenMOSS研究团队于2025年提出的OmniAction数据集，旨在解决机器人主动意图识别的核心研究问题。该数据集构建了包含14.1万条交互片段的大规模多模态资源，涵盖112种操作技能和748种物体，通过融合语音对话、环境声音和视觉线索等全模态信息，推动机器人从被动执行指令向主动理解人类意图的范式转变，为人机协作研究提供了重要支撑。

当前挑战

在领域问题层面，OmniAction致力于攻克跨模态上下文指令理解这一前沿难题，具体包括从复杂声学环境中分离重叠语音、解析非语言线索的情感意图、以及处理多人对话中的身份识别等挑战。数据集构建过程中面临多模态数据同步对齐、大规模真实场景采集、以及六类上下文指令的标准化标注等工程挑战，特别是在保证数据多样性的同时维持高质量标注的一致性，成为技术实现的关键瓶颈。

常用场景

经典使用场景

在机器人主动操作研究领域，OmniAction数据集通过融合多模态上下文指令，为机器人意图识别与执行提供了关键训练基础。该数据集涵盖六类情境指令——包括情感暗示、重叠语音、非语言线索等，使模型能够从对话、环境声音及视觉线索中主动推断用户需求，推动机器人从被动响应向主动协作的范式转变。

解决学术问题

该数据集解决了多模态机器人操作中意图推断的学术空白。传统方法依赖显式指令，而OmniAction通过整合语音、声学事件与视觉背景，构建了跨模态情境指令的标注体系，为端到端多模态大语言模型提供了训练范本，显著提升了机器人在复杂环境中理解隐性意图的准确性与鲁棒性。

衍生相关工作

基于OmniAction衍生的RoboOmni框架提出了感知-思考-对话-执行一体化架构，开创了多模态情境指令研究先河。后续工作进一步扩展了非语言线索建模、跨模态对齐等方法，推动了主动机器人操作在仿真与实体环境中的性能突破，为具身智能发展奠定了数据与模型基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集