OmniPro
收藏github2026-05-19 更新2026-05-20 收录
下载链接:
https://github.com/RuixiangZhao/OmniPro
下载链接
链接失效反馈官方服务:
资源简介:
OmniPro是一个全面的基准,用于评估多模态模型在流式视频理解中的主动交互能力,包括检测事件、监控状态、计数对象和及时叙述,无需每个时刻的显式用户查询。它包含9个评估任务,分为探测模式和在线模式。
创建时间:
2026-05-04
原始信息汇总
OmniPro 数据集概述
基本信息
- 数据集名称: OmniPro
- 发布机构: 作者 Ruixiang Zhao 等人
- 论文地址: arXiv 2605.18577
- 项目主页: https://ruixiangzhao.github.io/OmniPro/
- 数据集下载: HuggingFace - RuixiangZhao/OmniPro
- 许可证: MIT License
数据集描述
OmniPro 是一个用于评估多模态模型在流式视频理解中主动交互能力的综合基准,要求模型能够主动检测事件、监控状态、计数物体,并在没有显式用户查询的情况下提供及时叙述。
数据规模
- 总样本数: 2700 条带标注的基准数据
- 任务数量: 9 个评估任务,每个任务 300 条样本
任务设计
9 个评估任务
| 任务名称 | 缩写 | 类型 | 描述 |
|---|---|---|---|
| 即时事件提醒 | Event-Alert | 提醒 | 检测并报告特定事件 |
| 语义条件提醒 | Cond.-Alert | 提醒 | 监控语义条件的满足 |
| 显式目标定位 | Target-Ground | 定位 | 事件发生时定位目标 |
| 快照计数 | Snap.-Count | 计数 | 在触发时刻计数物体 |
| 累积计数 | Cum.-Count | 计数 | 追踪累积事件计数 |
| 去重计数 | Dedup.-Count | 计数 | 计数唯一实例 |
| 实时状态监控 | State-Monitor | 监控 | 追踪状态变化 |
| 事件叙述 | Event-Narr. | 叙述 | 实时叙述发生的事件 |
| 顺序步骤指令 | Step-Inst. | 指令 | 指导操作流程 |
评估模式
- Probe 模式: 模型接收截至时间 t 的视频片段,回答事件是否已发生,测试时间感知和内容理解能力
- Online 模式: 模型逐帧实时处理视频,自主决定何时发言和说什么
评估指标
Probe 模式
- 配对准确率: 前探针和后探针均需正确
- 内容 F1: 所有探针点的 F1 分数
- 前/后准确率: 触发前后各自的准确率
Online 模式
- 时间 F1: 在容忍窗口内的发射时间戳的精确率×召回率
- 内容准确率: 发射内容的正确性
- 联合 F1: 时间+内容的综合评分
支持模型
Probe 模式(11个模型)
| 模型 | 参数量 | 支持音频 |
|---|---|---|
| Qwen3-VL-8B | 8B | ❌ |
| Qwen2.5-Omni-7B | 7B | ✅ |
| Qwen3-Omni-30B-A3B | 30B | ✅ |
| InternVL3.5-8B | 8B | ❌ |
| Phi-4-multimodal | 5.6B | ✅ |
| Video-SALMONN2+ | 7B | ✅ |
| VideoLLaMA2.1-7B-AV | 7B | ✅ |
| LiveStar-8B | 8B | ❌ |
| MMDuet2 | 3B | ❌ |
| MiniCPM-o 4.5 | 9B | ✅ |
| Gemini-3-Flash | — | ✅ |
Online 模式(3个模型)
| 模型 | 参数量 | 支持音频 |
|---|---|---|
| MiniCPM-o 4.5 | 9B | ✅ |
| MMDuet2 | 3B | ❌ |
| LiveStar-8B | 8B | ❌ |
数据组成
data/ 目录包含:
benchmark.json— 基准标注文件(2700条样本,9任务×300)raw_videos/— 源视频文件
搜集汇总
数据集介绍

构建方式
OmniPro数据集面向流式视频中的主动理解任务,构建了一套涵盖9项评估任务的综合性基准。这些任务被划分为警报、定位、计数、监控、叙述与指令六大类型,包括即时事件警报、语义条件警报、显式目标定位、快照计数、累积计数、去重计数、实时状态监控、事件叙述与顺序步骤指令。每项任务均包含300个样本,总计2700个精心标注的样本。数据集支持两种评估模式:探针模式通过向模型提供截至时刻t的视频片段来检验其时间感知与内容理解能力;在线模式则要求模型以帧为单位实时处理视频,自主决定何时触发响应并生成恰当内容。
特点
OmniPro的核心特点在于其对多模态模型在流式视频中主动交互能力的全面考察。数据集不仅要求模型检测事件、监控状态、计数对象,更强调其能够在无显式用户查询的情况下提供即时叙述。这种设计挑战了模型从被动响应到主动引导的跨越性能力。探针模式与在线模式的双轨评估框架尤为突出,前者侧重于时刻关联的时空推理,后者则聚焦于实时决策与内容生成的同步性。此外,数据集涵盖了从短时快照到长时累积的多样化计数任务,以及从状态变化追踪到程序步骤引导的复杂指令场景,为模型提供了多维度的能力诊断工具。
使用方法
使用OmniPro数据集时,研究者需首先通过GitHub仓库克隆项目并安装依赖,随后从HuggingFace平台获取包含视频与标注的数据文件夹。数据集预置了多款主流多模态模型的适配器代码,覆盖探针与在线两种评估模式。启动评估时,可借助一键式脚本快速运行特定模型,如Qwen3-VL或MiniCPM-o,也可通过命令行自定义任务类型、样本限制与计算资源。评估完成后,系统自动计算配对准确率、内容F1分数及时间F1等指标,其中在线模式特别引入时间窗口容忍度以平衡响应精度与延迟。研究者还可参照项目提供的标准化接口扩展新模型,继承基类并实现生成或流式处理逻辑即可集成至评估流水线。
背景与挑战
背景概述
随着多模态大语言模型在视频理解领域的迅猛发展,如何使模型在流式视频场景中具备主动交互能力,即无需用户逐帧查询便能自主检测事件、监控状态、计数对象并实时叙述,成为当前研究的前沿课题。2026年,由Ruixiang Zhao、Jie Yang等研究者联合提出的OmniPro基准数据集,正是为填补这一评估空白而诞生。该数据集源自对现有模型在被动式问答任务中表现良好、却无法胜任实时主动理解需求的洞察,致力于系统性地衡量多模态模型在流式视频上的全方位主动性。OmniPro涵盖9项评估任务,包括即时事件警报、语义条件监控、显式目标定位、快照计数、累计计数、去重计数、状态监控、事件叙述与逐步指令引导,并创新性地设计了探针模式与在线模式两种评估范式。数据集包含2700个精心标注的样本,覆盖多种复杂现实场景,为多模态主动视频理解领域提供了首个系统化的标准化评测平台,对推动智能视频监控、实时人机交互、机器人自主导航等应用的发展具有深远影响。
当前挑战
OmniPro数据集所聚焦的核心挑战在于多模态模型在流式视频环境中实现主动理解的诸多瓶颈。其一,领域问题层面,现有模型普遍依赖用户明确的显式查询,难以自主判断何时及如何输出信息,导致在突发事件检测、状态实时监控等任务中表现欠佳,无法满足对时间敏感性和内容准确性的双重严苛需求。其二,构建过程中面临的主要挑战包括:如何设计涵盖多样任务类型(如计数、定位、叙述)且兼具时间序贯特性的评估范式,确保既能衡量模型对视频片段的内容理解,又能测试其逐帧处理与自主决策能力;如何构建高质量、大规模且具有现实代表性的视频数据集,同时保证标注的一致性、细粒度与时间对齐精度;此外,在在线模式评估中,如何定义合理的容忍窗口以兼顾时序误差与内容准确性,设计联合评价指标以全面反映模型的实时理解与交互能力,亦是亟需解决的关键难题。
常用场景
经典使用场景
OmniPro基准数据集专为评估多模态模型在流式视频场景中的主动交互能力而设计,涵盖9项核心任务,如瞬时事件告警、语义条件监测、目标定位、快照计数与累计计数、状态实时监控、事件叙述及顺序步骤指导。其评测模式包括探针模式与在线模式:探针模式通过时间分割视频片段检测模型对事件发生时刻的时序感知与内容理解能力;在线模式则要求模型逐帧实时处理视频,自主决策何时发言及表述内容,模拟真实流媒体交互场景。该数据集首先用于评测主流视觉语言模型在主动感知、时序推理与动态决策上的综合表现。
实际应用
在实践层面,OmniPro评测基准直接服务于智能监控、自动驾驶辅助、工业流程监测、无障碍辅助与沉浸式人机交互等实时应用领域。例如,模型在即时事件告警任务中的表现可用于安防系统的异常行为检测;顺序步骤指导任务可赋能智能工厂的装配引导或医疗手术的实时提示;状态监控与累计计数则适用于交通流量统计与库存盘点场景。在线模式下模型自主生成叙述的能力,尤为适合为视障人士提供实时环境描述,或在视频会议与远程教育中生成动态字幕与摘要。
衍生相关工作
基于OmniPro数据集的构建与评测,衍生了一系列经典工作,包括对MiniCPM-o、MMDuet2与LiveStar等在线模型在主动流式理解能力上的系统性比较研究。同时,该基准催生了针对探针模式与在线模式分离设计的评估指标(如时间F1分数与联合F1分数),启发了后续工作对模型时序敏感性与内容准确性权衡的深入分析。此外,数据集所提供的2700个样本与9类结构化任务标注,已成为多模态主动交互领域的标准化测试平台,引导研究者开发更高效的帧级处理策略与事件触发机制,并推动了含音频视觉联合建模在流式场景中的优化探索。
以上内容由遇见数据集搜集并总结生成



