OmniAction-LIBERO
收藏Hugging Face2025-10-29 更新2025-10-30 收录
下载链接:
https://huggingface.co/datasets/fnlp/OmniAction-LIBERO
下载链接
链接失效反馈官方服务:
资源简介:
OmniAction是一个大规模的多模态数据集,用于上下文指令跟随。它包括141,162个场景,涵盖112种技能和748种物体,包含5,096种不同的发声者音色、2,482种非语言声音事件和640种环境背景。数据集覆盖了六种上下文指令类别,包括情感线索、重叠声音、非语言线索、身份线索、二人对话和三人对话,捕捉了日常环境中的细微情感信号和复杂的多人互动。
提供机构:
Fudan NLP
创建时间:
2025-10-28
原始信息汇总
OmniAction-LIBERO 数据集概述
数据集基本信息
- 许可证: CC-BY-NC-4.0
- 任务类别: 机器人技术
- 语言: 英语
数据集状态
- 上传进度: 由于数据集规模较大,目前正在分批上传中,完整数据集将在上传完成后开放访问
数据集简介
OmniAction是一个大规模多模态上下文指令跟随数据集,专为机器人主动操作研究设计。该数据集支持从语音对话、环境声音和视觉线索中推断用户意图的新设置。
数据集规模与构成
- 总样本量: 141,162个片段
- 技能覆盖: 112种技能
- 物体数量: 748个物体
- 语音特征: 5,096种不同的说话者音色
- 声音事件: 2,482种非语言声音事件
- 环境背景: 640种环境背景
上下文指令类型
包含六类上下文指令:
- 情感线索
- 重叠语音
- 非语言线索
- 身份线索
- 二元对话
- 三元对话
数据格式
- 格式标准: RLDS(强化学习数据集标准)
- 音频处理: 按文件名排序
相关资源
- 论文: https://arxiv.org/pdf/2510.23763
- 网站: https://OpenMOSS.github.io/RoboOmni
- 模型: https://huggingface.co/fnlp/RoboOmni
- 数据集: https://huggingface.co/datasets/fnlp/OmniAction
- 代码: https://github.com/OpenMOSS/RoboOmni
搜集汇总
数据集介绍

构建方式
在机器人操作领域,OmniAction-LIBERO数据集的构建采用了大规模多模态数据采集策略,涵盖141,162个交互情景,涉及112种操作技能与748种物体对象。该数据集通过整合5,096种不同说话者的音色特征、2,482类非语言声音事件及640种环境背景,构建了六类上下文指令类型,包括情感暗示、重叠语音和非语言线索等,全面模拟真实场景中的多模态交互环境。数据遵循强化学习数据集标准格式,确保了结构化存储与高效访问。
特点
该数据集的核心特点在于其全模态覆盖能力,融合了视觉、语音与环境声音等多源信息,精准捕捉日常交互中的细微情感信号与复杂多主体对话模式。其指令类型设计兼具多样性与实用性,从简单身份提示到三元对话结构,均体现了对人类自然交互模式的深度还原。数据规模的宏大与模态的丰富性共同支撑了机器人意图识别与主动协作任务的高效训练。
使用方法
基于强化学习数据集标准,研究者可通过加载RLDS格式数据流直接访问多模态序列。使用时应优先解析音频文件与视觉帧的时空对齐关系,结合六类上下文指令标签构建训练样本。该数据集适用于端到端多模态大语言模型的意图识别模块训练,亦可通过拆分指令类型验证模型在特定场景下的泛化能力。实验部署时需注意环境背景与声音事件的跨模态融合策略,以最大化数据效用。
背景与挑战
背景概述
在机器人操作领域,多模态大语言模型的快速发展推动了视觉-语言-动作模型的进步。然而,现有方法主要依赖显式指令,而现实交互中人类往往通过环境线索传递意图。为应对这一局限,OpenMOSS团队于2025年提出RoboOmni框架,并同步构建OmniAction数据集。该数据集涵盖14.1万条交互序列,整合语音对话、环境声音与视觉模态,旨在解决跨模态情境指令理解这一核心研究问题,为具身智能系统实现主动意图推断奠定基础。
当前挑战
该数据集致力于攻克跨模态情境指令解析的复杂性挑战,包括非言语线索的语义解构、多模态信号时空对齐、以及动态环境中意图歧义消除等核心难题。在构建过程中,需协调5,096种声纹特征与2,482类环境声事件的标注一致性,同时处理640种背景场景下的多模态数据同步,并确保六类情境指令在112种操作技能中的泛化能力,这些因素共同构成了数据集构建的技术壁垒。
常用场景
经典使用场景
在机器人主动操作研究领域,OmniAction-LIBERO数据集为多模态意图识别提供了丰富的实验基础。该数据集通过融合语音对话、环境声音和视觉线索等多种模态信息,构建了跨模态上下文指令的新型研究范式。研究者可基于此数据集训练机器人从复杂环境信号中推断用户意图,突破传统显式指令的局限,推动机器人从被动响应向主动协作的转变。
解决学术问题
该数据集有效解决了多模态融合在机器人操作中的关键学术难题。传统方法依赖单一模态指令,难以应对现实场景中隐含的意图表达。OmniAction-LIBERO通过整合六类上下文指令类型,包括情感线索、重叠语音和非语言线索等,为研究多模态信号的时间空间对齐、意图推理机制提供了标准化基准,显著提升了机器人在复杂环境中的认知和理解能力。
衍生相关工作
围绕该数据集衍生的经典研究包括RoboOmni框架的提出,其感知-思考-对话-执行架构成为多模态机器人研究的标杆。后续工作在此基础上发展了端到端的全模态大语言模型,推动了视听信号时空融合技术的进步。这些研究不仅验证了数据集的学术价值,更开辟了基于上下文感知的主动机器人操作新方向。
以上内容由遇见数据集搜集并总结生成



