omniproact-bench

Hugging Face2026-05-05 更新2026-05-06 收录

下载链接：

https://huggingface.co/datasets/omniproact-bench/omniproact-bench

下载链接

链接失效反馈

官方服务：

资源简介：

OmniProact-Bench 是一个用于评估全能多模态大语言模型（MLLMs）主动视频理解能力的综合基准。与传统被动问答基准不同，该基准评估模型是否能够在视频流中主动监控并在特定条件满足时在正确时刻做出响应。数据集围绕三个核心能力设计：多模态感知（理解视频中的视觉、语音和非语音声音信号）、主动时机判断（自主决定在视频流中何时说话和何时保持沉默）以及全面视频理解（涵盖警报、监控、定位、计数、叙述和预测六种基本能力）。数据集包含 2,700 个样本，涵盖 9 种任务类型，涉及 1,262 个独特视频和 9,051 个真实触发点。84% 的样本需要或受益于音频理解，每个触发点都标注了其模态类型。数据集采用 JSON 格式存储，每个样本包含视频路径、持续时间、问题、问题时间、音频依赖标签以及真实触发点的详细信息。数据集视频来源于公开可用的研究数据集 LongVALE 和 COIN，注释通过自动生成和人工审核两阶段流程完成。OmniProact-Bench 支持两种评估协议：探测模式（GT 锚定）和在线模式（自主），旨在评估模型在主动视频理解任务中的表现。数据集仅用于评估，不适用于模型训练。

创建时间：

2026-04-30

原始信息汇总

OmniProact-Bench 数据集详情

数据集概述

OmniProact-Bench 是一个用于评估全模态大语言模型（MLLMs）主动视频理解能力的综合性基准测试集。与传统反应式问答基准不同，本数据集评价模型在视频流中主动监控并在特定条件满足时及时响应的能力。

许可证: CC-BY-NC-4.0
任务类型: 视频-文本到文本、视觉问答
语言: 英语
数据集规模: 1K < n < 10K

关键统计信息

指标	数值
总样本数	2,700
任务类型数	9
独立视频数	1,262
总真实触发事件数	9,051
平均每个样本触发事件数	3.4
平均视频时长	189秒
依赖音频的样本比例	84%（必需65.5% + 有帮助18.5%）
平均提问到首次触发间隔	54.1秒

任务类型

任务	缩写	能力	样本数	触发事件数	平均触发事件/样本
即时事件警报	IEA	警报	300	395	1.3
语义条件警报	SCA	警报	300	984	3.3
显式目标定位	ETG	定位	300	332	1.1
快照计数	SC	计数	300	300	1.0
累积计数	CC	计数	300	1,435	4.8
去重计数	DC	计数	300	1,234	4.1
实时状态监控	RSM	监控	300	1,340	4.5
事件叙述	EN	叙述	300	1,322	4.4
顺序步骤指令	SSI	预测	300	1,709	5.7

多模态感知覆盖

84%的样本需要或受益于音频理解，每个触发事件都标注了模态类型：

触发类型	数量	占比
视觉+语音	3,833	42.3%
仅视觉	2,157	23.8%
仅语音	2,055	22.7%
视觉+声音	581	6.4%
仅声音	271	3.0%
其他组合	154	1.7%

每个样本还带有 audio_dependency 标签（required / helpful / none），支持模态隔离分析。

数据格式

每个样本的结构如下：

ID: 格式为 task_type::video_id::index
task: 任务类型
video_id: 唯一视频标识符
video_path: 视频文件路径（raw_videos/{video_id}.mp4）
duration: 视频时长（秒）
question: 用户指令/查询
question_time: 提问时间点（MM:SS）
question_time_sec: 提问时间（秒）
audio_dependency: 音频依赖程度
ground_truth: 真实触发事件列表，每个事件包含：
- trigger_time: 触发时间（MM:SS）
- trigger_time_sec: 触发时间（秒）
- response: 预期主动回复
- trigger_type: 触发类型（视觉/语音/视觉+语音/视觉+声音）
- event_description: 事件描述

任务特定字段

IEA / SCA: 包含 event（被监控的事件或语义条件）
ETG: 包含 event（触发事件）和 target（要定位的物体），ground_truth 包含 position
SC / CC / DC: ground_truth 包含 count；CC 和 DC 包含 target

文件结构

. ├── README.md ├── benchmark.json # 全部2,700个评估样本 ├── metadata.jsonl # 数据集查看器元数据 └── raw_videos/ # 1,262个源视频文件 ├── {video_id_1}.mp4 ├── {video_id_2}.mp4 └── ...

数据采集与标注

视频来源

所有视频来源于两个公开研究数据集：

LongVALE: 涵盖多种真实场景的长视频
COIN: 日常任务的指导性视频

标注流程

自动生成: 使用 Gemini 3 Flash 为每个视频生成任务特定问题-答案对，包括问题、触发时间戳、回复和模态标签
人工审查: 九名人工标注员验证触发时间戳的正确性、回复质量及问题的适当性，不合格样本被剔除。对于需要精确时间对齐的任务，通过二次模型校正和额外人工验证进一步优化时间戳

质量控制

每个任务类型由专门标注员独立审查
单个审查后进行交叉验证以确保一致性

评估方法

支持两种评估协议：

探针模式（GT锚定）: 对每个真实触发事件，在前后两个时间点探询模型，主要指标为成对准确率
在线模式（自主）: 模型逐帧处理视频流并自主决定响应时机，指标包括时序F1分数和内容准确率（GPT评判开放回答）

评估代码地址：https://anonymous.4open.science/r/OmniProact-Bench-1D5E

预期用途

本数据集用于评估多模态大语言模型在主动视频理解任务上的表现，衡量模型的能力包括：

感知和整合视频中的视觉、语音和声音信号
主动检测特定条件满足的时刻并在精确时间点响应
处理多样化的视频理解任务（警报、监控、定位、计数、叙述、逐步指令）

本数据集为评估基准，不用于模型训练。

局限性

所有问题和标注均为英语

引用

bibtex @misc{omniproactbench2026, title={OmniProact-Bench: A Comprehensive Benchmark for Omni-Proactive Video Understanding}, year={2026} }

许可证

本数据集采用 CC BY-NC 4.0 许可证。视频来源于公开可用内容，仅用于研究目的。

搜集汇总

数据集介绍

构建方式

OmniProact-Bench的构建过程融合了自动化生成与人工精细校验的双重机制。数据源头取自LongVALE和COIN两个公开研究数据集，涵盖多样化真实场景与日常任务视频。首先，利用Gemini 3 Flash模型基于完整视频内容（含音频）及任务特定提示，自动生成候选问答对、触发时间戳、响应文本及模态标签。随后，九名人类标注员分别负责九种任务类型的严格审核，验证触发时机的准确性、响应质量及问题适配性，并剔除不合格样本。对于语义条件预警等高精度需求任务，还实施了第二轮模型校正与人工复审，确保时间对齐的精确无误。最终通过交叉验证保持任务间一致性，形成高质量基准测试集。

特点

该数据集的核心特点在于其前瞻性评估维度与多模态深度融合。与传统反应式问答不同，OmniProact-Bench致力于检验模型是否能在流式视频中自主监控并适时响应，即“主动时刻把握”能力。其覆盖六大核心能力（预警、监控、定位、计数、叙述、预测），细分为九类任务，总计2700个样本。特别之处在于，84%的样本依赖或受益于音频理解，每个触发事件均标注了视觉、语音、声音等模态类型，支持模态隔离分析。平均视频时长189秒，平均每样本含3.4个触发点，且首次触发与提问间隔平均达54秒，充分考验模型在长时间跨度下的持续注意力与时机决策能力。

使用方法

OmniProact-Bench支持两种评估协议供研究者灵活选用。探针模式（GT-anchored）在每个真实触发点前后各设一个探测点，以配对准确率作为核心指标，衡量模型对精确时机的响应能力。在线模式（Autonomous）则让模型逐帧处理视频流，自主决定响应时机，采用时态F1分数衡量时间精度与召回率，并通过GPT裁判评估开放性回答的内容准确性。数据集以benchmark.json格式存储全部样本，包含视频路径、问题、触发列表及任务特定字段（如计数、位置等）。配套评估代码已开放，便于研究者直接运行标准化测试，对比不同全模态大模型在主动视频理解上的性能差异。

背景与挑战

背景概述

OmniProact-Bench是一个于2026年发布的综合性基准测试，由致力于全模态大语言模型（MLLMs）前瞻性理解能力的研究团队构建。该基准的核心研究问题在于评估模型是否能在视频流中主动监控并适时做出响应，而非像传统问答基准那样仅在观看视频后回答显式问题。通过涵盖即时事件提醒、语义条件预警、目标定位、计数、叙述和预测六大基础能力，OmniProact-Bench为全模态模型的前瞻性视频理解设立了新的评价标准，对推动相关领域从被动响应向主动交互的范式转变具有重要影响力。

当前挑战

该基准所解决的领域挑战在于传统模型仅具备被动反应能力，缺乏在视频流中自主判断何时发言、何时保持沉默的主动时序决策能力。构建过程中面临的主要挑战包括：确保84%的样本依赖或受益于音频理解，以覆盖视觉、语音与非语音声音的多模态触发条件；设计九种任务类型并精准标注超过9,000个触发点，平均每样本达3.4个；通过自动化生成与九名人工审核员的两阶段标注流程保证时序对齐与响应质量的可靠性，并针对语义条件预警等任务进行多次模型修正与人工验证以提升精度。

常用场景

经典使用场景

在视频理解与多模态大语言模型的评估领域中，OmniProact-Bench被精心设计为一项开创性的基准测试，用以衡量模型在流式视频场景下的主动理解能力。与传统问答评测不同，该数据集要求模型不再是被动地回应视频观看后的提问，而是需要在连续的视频流中自主感知、判断并决定何时做出响应。其核心使用场景围绕三大能力展开：多模态感知——融合视觉、语音及非语音音频信号；主动时机把握——模型自主判定何时发声、何时保持沉默；以及全面的视频理解——涵盖报警、监控、定位、计数、叙述和预测六项基本技能。这一设计使其成为检验全模态大模型能否胜任实时、交互式视频任务的关键评估工具。

解决学术问题

该数据集直面当前多模态研究中的一个显著空白：大多数基准测试仅评估模型的被动问答能力，而忽视了在实际应用中至关重要的主动响应与时机判断。OmniProact-Bench系统性地解决了如何量化模型在开放式视频流中自主识别触发条件并做出适时反应的能力问题。它为学术界提供了一种可重复、标准化的评估框架，使研究者能够深入探测模型在报警任务中的即时性、监测任务中的持续性、计数任务中的累积性以及预测任务中的前瞻性。通过引入音频依赖度标签和多模态触发类型注释，它还支持模态隔离分析，从而精确揭示模型在融合视觉与听觉信息时的感知瓶颈，这对于推动全模态模型的学术研究具有深远的影响和重要的方法论意义。

衍生相关工作

OmniProact-Bench的发布催生了一系列相关联的经典研究工作。其设计思路直接挑战了现有大型语言模型在实时流式处理上的局限，因此激发了研究者对模型主动推理能力的深入探索。围绕该基准，衍生工作涵盖了以下几个方向：首先是流式视频语言模型的架构改进，如引入时间感知的触发机制和混合注意力模块；其次是多模态对齐策略的优化，特别是在视觉与语音信号不同步情况下的融合方案；再者是评估协议本身的扩展，例如从地面真值锚定的探针模式发展为完全的自主在线模式，推动了时序F1评分和内容准确度评判方法的发展。此外，该数据集还促进了多模态模型在报警、监测、计数等细分任务上的专项调优研究，并为后续基于其音频依赖度标签进行模态消融实验的学术工作奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集