OmniMMI

Name: OmniMMI
Creator: 北京通用人工智能研究院, 北京大学王选计算机研究所, 上海交通大学X-LANCE实验室
Published: 2025-03-29 10:46:58
License: 暂无描述

arXiv2025-03-29 更新2025-04-03 收录

下载链接：

https://omnimmi.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

OmniMMI是一个专为Omni语言模型设计的全面的多模态交互基准，适用于流媒体视频环境。该数据集包含超过1,121个视频和2,290个问题，旨在解决现有视频基准中未被充分探索的两个关键挑战：流媒体视频理解和主动推理。数据集涵盖了六种不同的子任务，包含动作预测、动态状态定位、多轮依赖推理等。数据来源于YouTube和开源视频音频数据，经过人工审核和标注，适用于评估多模态语言模型在流媒体视频环境中的交互能力。

OmniMMI is a comprehensive multimodal interaction benchmark specifically designed for Omni language models, tailored for streaming video environments. The dataset consists of over 1,121 videos and 2,290 questions, aiming to address two critical challenges that remain under-explored in existing video benchmarks: streaming video understanding and proactive reasoning. It covers six distinct subtasks, including action prediction, dynamic state localization, multi-turn dependency reasoning, and more. The data is sourced from YouTube and open-source video-audio datasets, undergoes manual review and annotation, and is intended to evaluate the interactive capabilities of multimodal language models in streaming video scenarios.

提供机构：

北京通用人工智能研究院, 北京大学王选计算机研究所, 上海交通大学X-LANCE实验室

创建时间：

2025-03-29

搜集汇总

数据集介绍

构建方式

OmniMMI数据集通过整合来自YouTube和开源视频音频数据的1,121个视频构建而成，平均时长为324秒。视频内容涵盖多种交互场景，并通过手动标注和审核流程生成了2,290个问题，这些问题基于视频的视觉和听觉信息。标注过程中，标注者需按时间顺序审查视频，标注相关动作或状态的时间跨度，并针对不同任务设计问题类型提示。为确保数据质量，进行了二次审核和一致性检查。

特点

OmniMMI数据集专注于流媒体视频上下文中的多模态交互，特别强调实时视频理解和主动推理能力。数据集包含六个独特的子任务，涉及流媒体视频理解和主动推理，如动态状态定位、动作预测和多轮依赖推理。此外，数据集设计了多轮问题（最多3轮），模拟真实交互场景，增强了交互性。视频和问题的多样性使其成为评估多模态语言模型在流媒体环境中交互能力的理想基准。

使用方法

OmniMMI数据集可用于评估多模态语言模型在流媒体视频上下文中的交互能力。研究人员可以通过该数据集测试模型在实时视频理解、主动推理和多轮交互任务中的表现。数据集提供了详细的标注和时间跨度信息，支持模型在动态环境中的增量理解和响应生成。此外，数据集还可用于训练和验证新型流媒体视频理解框架，如论文中提出的多模态多路复用建模（M4）框架。

背景与挑战

背景概述

OmniMMI是由北京通用人工智能研究院、北京大学王选计算机研究所、上海交通大学X-LANCE实验室等机构的研究团队于2025年推出的多模态交互基准数据集。该数据集旨在评估全模态大语言模型（OmniLLMs）在流媒体视频上下文中的实时交互能力，包含1,121个视频和2,290个问题，涵盖流媒体视频理解和主动推理两大核心任务。作为首个专注于流媒体场景下多模态交互的综合性基准，OmniMMI通过六种子任务设计，填补了传统视频基准在实时交互评估方面的空白，推动了具身智能领域的发展。

当前挑战

OmniMMI面临的主要挑战体现在两个方面：在领域问题层面，传统多模态模型难以处理流媒体视频的时序状态感知和主动推理任务，特别是在多轮依赖推理和动态状态 grounding 任务中表现显著下降；在构建过程层面，数据集需要精确标注视频流中的时序动作状态和跨模态依赖关系，同时要平衡长视频内容理解与实时交互需求的矛盾。此外，音频-视觉模态的对齐问题以及模型在有限计算资源下处理长上下文的能力也是重要挑战。

常用场景

经典使用场景

OmniMMI数据集专为评估多模态大语言模型（OmniLLMs）在流媒体视频上下文中的交互能力而设计。其经典使用场景包括动态状态感知、多轮依赖推理以及主动推理与轮转。通过涵盖1,121个视频和2,290个问题，该数据集能够全面测试模型在实时视频流中的理解和推理能力，特别是在处理多模态输入（如视觉和听觉信息）时的表现。

解决学术问题

OmniMMI解决了现有视频基准测试中两个关键但未被充分探索的挑战：流媒体视频理解和主动推理。这些问题在传统的视频分析任务中往往被忽视，尤其是在需要模型实时处理连续视频流并进行多轮交互的场景中。该数据集通过提供多样化的子任务（如动态状态感知和主动轮转），为研究者提供了一个标准化的评估平台，推动了多模态交互技术的进步。

衍生相关工作

OmniMMI数据集催生了一系列相关研究，特别是在多模态交互和流媒体视频理解领域。例如，基于该数据集提出的多模态复用建模（M4）框架显著提升了模型在主动任务和实时交互中的表现。此外，该数据集还激发了研究者对长上下文视频理解和多模态对齐技术的进一步探索，推动了OmniLLMs在实际应用中的广泛部署。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集