omniproact-bench
收藏OmniProact-Bench 数据集详情
数据集概述
OmniProact-Bench 是一个用于评估全模态大语言模型(MLLMs)主动视频理解能力的综合性基准测试集。与传统反应式问答基准不同,本数据集评价模型在视频流中主动监控并在特定条件满足时及时响应的能力。
- 许可证: CC-BY-NC-4.0
- 任务类型: 视频-文本到文本、视觉问答
- 语言: 英语
- 数据集规模: 1K < n < 10K
关键统计信息
| 指标 | 数值 |
|---|---|
| 总样本数 | 2,700 |
| 任务类型数 | 9 |
| 独立视频数 | 1,262 |
| 总真实触发事件数 | 9,051 |
| 平均每个样本触发事件数 | 3.4 |
| 平均视频时长 | 189秒 |
| 依赖音频的样本比例 | 84%(必需65.5% + 有帮助18.5%) |
| 平均提问到首次触发间隔 | 54.1秒 |
任务类型
| 任务 | 缩写 | 能力 | 样本数 | 触发事件数 | 平均触发事件/样本 |
|---|---|---|---|---|---|
| 即时事件警报 | IEA | 警报 | 300 | 395 | 1.3 |
| 语义条件警报 | SCA | 警报 | 300 | 984 | 3.3 |
| 显式目标定位 | ETG | 定位 | 300 | 332 | 1.1 |
| 快照计数 | SC | 计数 | 300 | 300 | 1.0 |
| 累积计数 | CC | 计数 | 300 | 1,435 | 4.8 |
| 去重计数 | DC | 计数 | 300 | 1,234 | 4.1 |
| 实时状态监控 | RSM | 监控 | 300 | 1,340 | 4.5 |
| 事件叙述 | EN | 叙述 | 300 | 1,322 | 4.4 |
| 顺序步骤指令 | SSI | 预测 | 300 | 1,709 | 5.7 |
多模态感知覆盖
84%的样本需要或受益于音频理解,每个触发事件都标注了模态类型:
| 触发类型 | 数量 | 占比 |
|---|---|---|
| 视觉+语音 | 3,833 | 42.3% |
| 仅视觉 | 2,157 | 23.8% |
| 仅语音 | 2,055 | 22.7% |
| 视觉+声音 | 581 | 6.4% |
| 仅声音 | 271 | 3.0% |
| 其他组合 | 154 | 1.7% |
每个样本还带有 audio_dependency 标签(required / helpful / none),支持模态隔离分析。
数据格式
每个样本的结构如下:
- ID: 格式为
task_type::video_id::index - task: 任务类型
- video_id: 唯一视频标识符
- video_path: 视频文件路径(
raw_videos/{video_id}.mp4) - duration: 视频时长(秒)
- question: 用户指令/查询
- question_time: 提问时间点(
MM:SS) - question_time_sec: 提问时间(秒)
- audio_dependency: 音频依赖程度
- ground_truth: 真实触发事件列表,每个事件包含:
trigger_time: 触发时间(MM:SS)trigger_time_sec: 触发时间(秒)response: 预期主动回复trigger_type: 触发类型(视觉/语音/视觉+语音/视觉+声音)event_description: 事件描述
任务特定字段
- IEA / SCA: 包含
event(被监控的事件或语义条件) - ETG: 包含
event(触发事件)和target(要定位的物体),ground_truth包含position - SC / CC / DC:
ground_truth包含count;CC 和 DC 包含target
文件结构
. ├── README.md ├── benchmark.json # 全部2,700个评估样本 ├── metadata.jsonl # 数据集查看器元数据 └── raw_videos/ # 1,262个源视频文件 ├── {video_id_1}.mp4 ├── {video_id_2}.mp4 └── ...
数据采集与标注
视频来源
所有视频来源于两个公开研究数据集:
- LongVALE: 涵盖多种真实场景的长视频
- COIN: 日常任务的指导性视频
标注流程
- 自动生成: 使用 Gemini 3 Flash 为每个视频生成任务特定问题-答案对,包括问题、触发时间戳、回复和模态标签
- 人工审查: 九名人工标注员验证触发时间戳的正确性、回复质量及问题的适当性,不合格样本被剔除。对于需要精确时间对齐的任务,通过二次模型校正和额外人工验证进一步优化时间戳
质量控制
- 每个任务类型由专门标注员独立审查
- 单个审查后进行交叉验证以确保一致性
评估方法
支持两种评估协议:
- 探针模式(GT锚定): 对每个真实触发事件,在前后两个时间点探询模型,主要指标为成对准确率
- 在线模式(自主): 模型逐帧处理视频流并自主决定响应时机,指标包括时序F1分数和内容准确率(GPT评判开放回答)
评估代码地址:https://anonymous.4open.science/r/OmniProact-Bench-1D5E
预期用途
本数据集用于评估多模态大语言模型在主动视频理解任务上的表现,衡量模型的能力包括:
- 感知和整合视频中的视觉、语音和声音信号
- 主动检测特定条件满足的时刻并在精确时间点响应
- 处理多样化的视频理解任务(警报、监控、定位、计数、叙述、逐步指令)
本数据集为评估基准,不用于模型训练。
局限性
- 所有问题和标注均为英语
引用
bibtex @misc{omniproactbench2026, title={OmniProact-Bench: A Comprehensive Benchmark for Omni-Proactive Video Understanding}, year={2026} }
许可证
本数据集采用 CC BY-NC 4.0 许可证。视频来源于公开可用内容,仅用于研究目的。




