ProactiveVideoQA
收藏arXiv2025-07-15 更新2025-07-17 收录
下载链接:
https://github.com/yellow-binarytree/ProactiveVideoQA
下载链接
链接失效反馈官方服务:
资源简介:
ProactiveVideoQA是一个用于评估机器在视频多模态大语言模型中进行主动交互能力的综合基准数据集。该数据集包含多个主题的视频,整合了文本、视频和语音等多种输入模态,并支持多轮输出,以反映真实和多样化的使用案例。数据集的创建旨在解决视频多模态大语言模型在主动交互场景下的评估问题,提供了更加全面和客观的评估标准。
ProactiveVideoQA is a comprehensive benchmark dataset for evaluating the proactive interaction capabilities of machines in video-based multimodal large language models. This dataset includes videos covering multiple topics, integrates multiple input modalities such as text, video and speech, and supports multi-turn outputs to reflect realistic and diverse usage scenarios. The dataset is designed to address the evaluation challenges of video-based multimodal large language models in proactive interaction scenarios, providing more comprehensive and objective evaluation criteria.
提供机构:
北京大学王选计算机研究所, 华为诺亚方舟实验室, 北京科技大学智能科学与技术学院, 国家通用人工智能重点实验室
创建时间:
2025-07-12
搜集汇总
数据集介绍

构建方式
ProactiveVideoQA数据集的构建基于多源视频数据的整合与标注优化。研究团队从Shot2story-MAGQA-39k、Ego4D Goalstep、TVQA和UCF-Crime等现有基准中筛选视频素材,通过多模态对齐和时序标注重构,形成了涵盖网页视频([WEB])、第一人称视角视频([EGO])、电视剧片段([TV])及监控视频([VAD])四大任务的评估体系。针对不同任务特性采用差异化处理:对已有时序标注的数据直接复用原始问答对;对仅有密集视频描述的数据通过自动化流程生成问答对;对异常检测场景则人工编写标准化问题与事件描述。通过合并相邻语义相似的回复时段(间隔<3秒)和跨模态校验,确保了时序标注的连贯性与多轮对话的合理性。
特点
该数据集的核心特征体现在三维度创新:多轮开放式问答架构突破了传统多选题范式的局限,要求模型在视频流中自主判断应答时机并生成自由文本,更贴近直播理解、智能监控等现实场景需求;覆盖4类典型应用场景的1377个视频构成多模态输入空间,融合视觉、文本、语音信号,其中[EGO]任务平均每视频含4.83个应答回合,[WEB]任务视频平均时长仅16.59秒,形成对模型实时决策能力的梯度测试;首创的PAUC评估指标通过时间-质量曲线下面积量化模型应答的时效性与准确性平衡,支持通过ω参数(默认0.5)灵活调整时序敏感度,在人类偏好实验中较传统指标提升12.7%的评判一致性。
使用方法
使用该数据集需遵循动态评估协议:将视频按任务类型分块([WEB]2秒/块,其他5秒/块)输入模型,初始问题在视频开始时提供。评估时需记录模型在各时间戳生成的应答文本,通过PAUC计算框架分析应答质量随时间的演变。对于离线模型,建议采用增量块输入策略,每轮提供历史应答与新视频块,触发模型判断是否更新应答;开源主动模型可直接调用其时序决策模块。关键步骤包括:使用GPT-4作为评分器对比累积应答与标注答案的匹配度(0-2分制),构建时间-分数折线后按公式(1)计算标准化面积。需特别注意[TV]任务需同步处理字幕时序,[VAD]任务侧重异常事件的首报时效性。
背景与挑战
背景概述
ProactiveVideoQA是由北京大学王跃谦团队联合华为诺亚方舟实验室等机构于2025年提出的首个面向主动交互视频问答的基准测试。该数据集针对视频多模态大语言模型(Video MLLMs)在流媒体场景下的自主响应能力评估需求,突破了传统离线问答的范式限制。其创新性体现在设计了包含网络视频、第一视角视频、电视剧和监控视频的四类任务场景,并首创了考虑时序动态的PAUC评估指标,通过量化模型响应时间与内容质量的协同演化,为实时流媒体理解、智能监控等前沿应用提供了标准化评估框架。
当前挑战
构建ProactiveVideoQA面临双重挑战:在领域问题层面,需解决模型自主决策响应时机的核心难题,这要求系统实时捕捉视频流中的关键语义片段并生成时序精准的多轮响应;在数据集构建层面,存在真实场景视频标注复杂度高、多模态时序对齐困难等技术瓶颈。特别地,传统离线评估指标无法有效衡量主动交互系统的动态性能,而现有开源模型在时序决策能力上的不足也制约了基准测试的广泛应用。
常用场景
经典使用场景
ProactiveVideoQA数据集在视频多模态大语言模型(Video MLLMs)的研究中扮演着关键角色,特别是在评估模型的主动交互能力方面。该数据集通过模拟真实场景中的多轮对话和实时视频播放,要求模型在视频播放过程中自主决定何时提供回答,从而评估其在动态环境中的理解和响应能力。这种设置使得ProactiveVideoQA成为评估模型在实时视频理解、多模态交互和时序决策等方面性能的理想工具。
解决学术问题
ProactiveVideoQA解决了视频多模态大语言模型研究中主动交互能力评估的空白。传统评估方法通常仅关注静态文本输出的质量,而忽视了模型在动态视频环境中的时序决策能力。该数据集通过引入多轮开放性问题、多样化视频主题和多模态输入,为研究者提供了一个全面评估模型主动交互能力的平台。此外,其提出的PAUC(Proactive Area Under Curve)指标能够更准确地反映模型在时序动态中的表现,填补了现有评估方法的不足。
衍生相关工作
ProactiveVideoQA的推出催生了一系列相关研究,例如VideoLLM-Online和MMDuet等模型,这些工作专注于提升模型在主动交互中的表现。此外,PAUC指标的设计也启发了后续研究,例如在动态多模态交互中引入更复杂的时序评估方法。这些衍生工作进一步推动了视频多模态大语言模型在主动交互领域的发展,并为实际应用提供了更多可能性。
以上内容由遇见数据集搜集并总结生成



