ProactiveVideoQA

github2025-07-15 更新2025-07-19 收录

下载链接：

https://github.com/yellow-binary-tree/ProactiveVideoQA

下载链接

链接失效反馈

官方服务：

资源简介：

ProactiveVideoQA是第一个全面评估系统在多模态对话设置中主动交互能力的基准测试。与传统的逐轮对话系统不同，在主动交互中，模型需要在播放过程中确定何时响应，因此响应时间和响应文本内容都是评估的重要点。

ProactiveVideoQA is the first benchmark for comprehensively evaluating the proactive interaction capabilities of systems within multimodal dialogue scenarios. Unlike traditional turn-by-turn dialogue systems, in proactive interaction, models are required to determine the appropriate timing to respond during video playback. Consequently, both response timing and the content of textual responses serve as key evaluation metrics.

创建时间：

2025-07-11

原始信息汇总

ProactiveVideoQA 数据集概述

数据集简介

ProactiveVideoQA 是首个全面评估多模态对话场景中系统主动交互能力的基准测试。与传统逐轮对话系统不同，该数据集要求模型在视频播放过程中决定何时响应，因此响应时机和响应文本内容均为重要评估点。

数据集特点

核心目标：评估视频大语言模型的主动交互能力
创新性：引入时间感知指标PAUC（Proactive Area Under the Curve）
数据特性：完全主动式问题与开放式答案

数据集统计

视频总量：1377个（来自不同来源）
问题数量：1427个不同问题
回复轮次：3510个真实回复轮次

任务分类

主动网络视频QA [WEB]：通用网络视频理解
主动第一人称视频QA [EGO]：机器人/日常助手应用相关
主动电视剧视频QA [TV]：带语音输入的对话与社会关系理解
主动视频异常检测 [VAD]：监控视频预警

项目结构

ProactiveVideoQA/ ├── data/ # 测试数据（需从Huggingface下载） ├── pauc/ # PAUC评分脚本

数据获取

下载地址：https://huggingface.co/datasets/wangyueqian/ProactiveVideoQA
存放要求：下载后重命名为./data目录

引用格式

bibtex @misc{wang2025proactivevideoqacomprehensivebenchmarkevaluating, title={ProactiveVideoQA: A Comprehensive Benchmark Evaluating Proactive Interactions in Video Large Language Models}, author={Yueqian Wang and Xiaojun Meng and Yifan Wang and Huishuai Zhang and Dongyan Zhao}, year={2025}, eprint={2507.09313}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.09313}, }

搜集汇总

数据集介绍

构建方式

ProactiveVideoQA数据集作为评估视频大语言模型主动交互能力的首个综合性基准，其构建过程体现了严谨的多模态设计理念。研究团队从网络视频、第一人称视角视频、电视剧集视频和监控视频四大场景中精选了1377个视频样本，通过专家标注生成了1427个开放式问题和3510个标准回复轮次。数据采集特别注重时间维度标注，要求模型在视频播放过程中动态判断最佳响应时机，这种时序敏感的构建方法突破了传统问答数据集的静态交互模式。

使用方法

使用该数据集需从HuggingFace平台下载视频文件与标注数据，按照项目结构存放于指定目录。评估流程分为两个关键阶段：首先运行模型生成带时间戳的预测响应，随后调用PAUC评估脚本计算时序感知的综合得分。研究者在实验中需特别注意模型输出的时间对齐特性，所有响应应包含精确的视频帧位置信息。数据集支持端到端的主动交互系统测试，也可拆解为传统视频问答任务进行对比实验，为多模态学习研究提供灵活的实验平台。

背景与挑战

背景概述

ProactiveVideoQA是由Yueqian Wang等研究人员于2025年提出的首个专注于评估多模态对话系统中主动交互能力的综合性基准数据集。该数据集由清华大学等机构联合开发，旨在突破传统轮转式对话系统的局限，探索视频大型语言模型在动态播放过程中自主决策响应时机与内容生成的核心研究问题。其创新性地涵盖了网络视频理解、第一人称视角视频解析、电视剧社交关系分析及视频异常检测四大任务场景，包含1377段视频和3510组真实交互数据，为视频理解与智能交互领域提供了全新的评估范式与研究工具。

当前挑战

该数据集主要应对视频时序理解与主动决策的双重挑战：在领域问题层面，需解决模型对视频流中关键事件点的实时捕捉难题，以及开放域问答中语义连贯性与时序合理性的平衡问题；在构建过程中，面临多源视频数据标注一致性控制、主动交互行为的标准定义、以及跨模态（视觉-语音-文本）对齐等工程挑战。特别设计的PAUC评估指标还需克服传统静态评估方法对时序敏感任务适应性不足的缺陷。

常用场景

经典使用场景

在视频理解与交互领域，ProactiveVideoQA数据集为评估视频大语言模型的主动交互能力提供了首个综合性基准。该数据集通过四种任务场景——通用网络视频问答、第一人称视角视频理解、电视剧视频社交关系分析及监控视频异常检测，系统考察模型在视频播放过程中主动判断响应时机与生成合理回复的能力。其多模态对话设置突破了传统轮转式对话的局限，尤其适用于需要实时决策的智能视频分析场景。

解决学术问题

该数据集有效解决了视频语言模型研究中主动交互能力量化评估的空白。通过设计时序感知指标PAUC，研究者能够同时衡量模型响应时机选择的准确性与文本生成质量，为多模态对话系统中时间敏感型决策机制的研究提供了标准化评估框架。其涵盖的1377个视频样本与3510个真实交互回合，显著提升了相关领域研究的可复现性与横向对比可靠性。

实际应用

在实际应用层面，该数据集支撑的技术可广泛应用于智能监控系统的实时预警、机器人视觉交互系统的行为决策，以及流媒体平台的智能导览功能开发。特别是在安防领域，基于异常检测任务构建的主动问答机制，能够帮助监控系统实现从被动录像到主动风险识别的范式转换，大幅提升监控效率。

数据集最近研究