OMNIPRO

Name: OMNIPRO
Creator: 中国人民大学; 腾讯公司·微信视觉
Published: 2026-05-18 23:55:22
License: 暂无描述

arXiv2026-05-18 更新2026-05-20 收录

下载链接：

https://ruixiangzhao.github.io/OmniPro

下载链接

链接失效反馈

官方服务：

资源简介：

OMNIPRO是由中国人民大学与腾讯微信视觉团队联合创建的首个全主动流式视频理解综合基准数据集。该数据集包含2700个人工验证样本，涵盖9个子任务和3个认知层次，全面覆盖了6种基本视频理解能力，其中84%的样本依赖音频信号（语音或非语音）。数据来源于LongVALE和COIN两个公开数据集的测试集，共计1771个源视频，通过Gemini 3 Flash模型生成多模态密集描述与结构化问答对。该数据集旨在系统评估全模态感知、主动响应决策与多样化视频理解任务的协同能力，为流式视频理解模型提供统一的评测框架。

OMNIPRO is the first comprehensive benchmark dataset for fully active streaming video understanding, jointly developed by Renmin University of China and the Tencent WeChat Vision Team. It comprises 2700 manually validated samples, spanning 9 subtasks and 3 cognitive levels, and comprehensively covers 6 fundamental video understanding capabilities. Notably, 84% of these samples rely on audio signals, including both speech and non-speech content. The dataset is sourced from the test splits of two public datasets, LongVALE and COIN, with a total of 1771 source videos. Multimodal dense descriptions and structured question-answering pairs were generated using the Gemini 3 Flash model. This benchmark aims to systematically evaluate the collaborative capabilities of full-modal perception, active response decision-making, and diverse video understanding tasks, thereby providing a unified evaluation framework for streaming video understanding models.

提供机构：

中国人民大学; 腾讯公司·微信视觉

创建时间：

2026-05-18

搜集汇总

数据集介绍

构建方式

OMNIPRO数据集依托于LongVALE与COIN两个公开数据集的测试集，共收集1,771段源视频。通过Gemini 3 Flash模型为每段视频生成含时间戳的多模态稠密描述，覆盖视觉、音频与语音信息。基于这些描述，采用音频优先策略自动合成约9,000个原始问答样本，每个样本包含问题、触发时间、预期响应、触发模态及音频依赖程度等字段。随后经过两轮人工审核——首轮由9位标注员逐任务检查，次轮交叉验证以确保标准一致——最终筛选出2,700个高质量样本，分布于1,262段视频中。

特点

该数据集独具三大核心特征：首先，84%的样本依赖音频信号（语音或非语音），且每个样本携带模态隔离标签，支持细粒度的多模态消融分析；其次，涵盖9项子任务，横跨感知、理解与推理三个认知层级，对应视频理解的6项基本能力，任务类型包括即时事件警报、实时状态监控、累计计数等；再次，触发时间分布广泛，平均首次触发在54.1秒，末次在126.2秒，间隔72.1秒，要求模型具备长时间注意力维持能力。

使用方法

OMNIPRO设计了双模式评估协议：Probe模式适用于任意视觉语言模型，通过在每个真实触发时刻前后分别查询模型，评估内容理解准确性；Online模式专为流式模型设计，要求模型自主决定响应时机，支持多次响应并引入时间容忍窗口（±3秒）进行贪婪匹配，采用F1作为主要指标。两种模式均使用结构化输出格式便于精确匹配，对于开放生成任务（如事件叙述、步骤指令），则借助LLM裁判进行评分判定。

背景与挑战

背景概述

OMNIPRO数据集由中国人民大学与腾讯微信视觉团队于2026年联合创建，旨在填补全模态主动式流式视频理解评估的空白。该基准聚焦于三个核心研究问题：全模态感知（视觉、语音与非语言音频）、主动响应决策（模型自主判断回答时机）以及多样化视频理解任务（涵盖监控、定位、计数、叙事与预测等六项基础能力）。数据集的诞生源于现有基准如StreamingBench-Pro、OVO-Bench-Pro与OmniMMI-Pro在模态覆盖、主动评估与任务多样性上的显著不足。OMNIPRO包含2700个人工验证样本，横跨9个子任务与3个认知层级，其中84%的样本依赖音频信号，首次实现了对全模态主动式流式模型的系统性评估，为相关领域提供了关键的技术衡量标杆。

当前挑战

OMNIPRO所解决的领域挑战在于突破传统被动式、单模态的视频理解评估范式，推动模型在连续音视频流中自主决策响应时机与内容。在构建过程中，数据采集面临多方面的困难：需从LongVALE与COIN等公共数据集中筛选兼具音频依赖性与长时程特性的视频素材；通过自动化流水线生成多模态密集描述与问答对时，必须严格遵循音频优先策略与流式约束，确保响应内容不依赖未来信息。人工质控环节尤为繁重，两轮跨子任务的审核与交叉验证后，仅保留约30%的高质量样本，最终形成覆盖视觉、语音与非语言音频触发机制，且首个触发平均延迟达54.1秒的复杂评估框架。

常用场景

经典使用场景

OMNIPRO最为经典的使用场景在于对全模态主动式流式视频理解能力的系统性评估。该基准涵盖2,700个人工校验的样本，横跨9个子任务与三个认知层级，囊括了事件警报、实时状态监控、快照计数、目标定位、事件叙述、累积计数、语义条件警报、去重计数及顺序步骤指导等六项基础视频理解能力。其独特的双模式评估机制——探针模式与在线模式——能够分别衡量模型的内容理解深度与完整主动响应能力，尤其强调对听觉信号的依赖，84%的样本需要语音或非语音音频方能正确作答。这使得OMNIPRO成为当前唯一能够同时评估全模态感知、主动响应时机决策与多样化视频理解任务三者统一的权威平台。

实际应用

在实际应用场景中，OMNIPRO所定义的全模态主动式流式理解能力具有广泛的部署价值。譬如在智能监控系统里，模型需自主识别环境中的异常声音并通过定位与计数功能实时告警；在辅助视障人群的应用中，模型需持续感知周围环境的声景变化并主动用自然语言描述事件进展；在虚拟教学与工业操作指导场景下，如顺序步骤指导子任务所示，模型需判断用户当前进度并及时给出下一步操作指引。此外，从各类装备操作教程的实时指导，到体育直播中的智能解说，再到会议系统中的发言人身份跟踪与语义条件提醒，OMNIPRO均提供了检验这类主动、多模态、低延迟交互能力的权威测试平台。

衍生相关工作

OMNIPRO的诞生催生了一系列重要的衍生工作。在模型架构层面，研究者基于其评估框架，发展了令牌驱动型主动响应机制，如将响应时机决策嵌入自回归生成过程中的特殊令牌设计；分类头型方法则通过轻量化解耦模块实现何时回答的独立判定；信号驱动型方法则利用困惑度变化或视觉场景切换等辅助信号来触发响应。在数据库层面，OMNIPRO推动了长时域全模态视频理解基准如LongVALE的扩展应用，并与主动式视频理解评估子集如StreamingBench-Pro、OVO-Bench-Pro及OmniMMI-Pro形成了互补与递进关系。该基准的模态隔离分析范式也被后续研究采纳，用于多模态融合策略的深度解耦与瓶颈诊断。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集