ProactiveVideoQA

Hugging Face2025-07-15 更新2025-07-16 收录

下载链接：

https://huggingface.co/datasets/wangyueqian/ProactiveVideoQA

下载链接

链接失效反馈

官方服务：

资源简介：

ProactiveVideoQA是一个全面的基准数据集，用于评估系统在多模态对话中进行主动交互的能力。该数据集包含四个任务：主动网络视频问答、主动第一人称视角视频问答、主动电视剧视频问答和主动视频异常检测。数据集中共有1377个视频，1427个问题，以及3510个真实回复轮次。所有问题和回答都是开放式的。

创建时间：

2025-07-12

原始信息汇总

ProactiveVideoQA 数据集概述

数据集简介

ProactiveVideoQA 是首个全面评估多模态对话设置中系统主动交互能力的基准测试。与传统轮流对话系统不同，该数据集要求模型在视频播放过程中决定何时响应，因此响应时间和响应文本内容均为重要评估点。

数据集统计

包含4类任务：

主动网络视频问答 [WEB]：聚焦通用网络视频理解
主动第一人称视频问答 [EGO]：侧重机器人/日常助手应用的第一人称视角理解
主动电视剧视频问答 [TV]：强调带语音输入的对话与社会关系理解
主动视频异常检测 [VAD]：针对监控视频的警报场景

核心数据量：

1377 个来源各异的视频
1427 个不同问题，3510 个真实回复节点
全主动式提问与开放式答案

数据格式

示例文件路径：{dataset}/anno.json json { "question_id": "视频唯一标识", "video": "视频文件名", "conversation": [ {"role": "用户", "time": 提问时间戳, "content": "问题文本"} ], "answer": [ { "role": "助手", "content": "回复文本", "reply_timespan": [响应开始时间, 响应结束时间] } ] }

引用信息

bibtex @misc{wang2025proactivevideoqacomprehensivebenchmarkevaluating, title={ProactiveVideoQA: A Comprehensive Benchmark Evaluating Proactive Interactions in Video Large Language Models}, author={Yueqian Wang and Xiaojun Meng and Yifan Wang and Huishuai Zhang and Dongyan Zhao}, year={2025}, eprint={2507.09313}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.09313}, }

搜集汇总

数据集介绍

构建方式

ProactiveVideoQA数据集的构建基于多模态对话系统中主动交互能力的评估需求，涵盖了四种不同场景的任务。研究团队从多样化的视频来源中精选了1377个视频样本，并针对每个视频设计了具有挑战性的开放式问题。通过专家标注的方式，为每个问题提供了精确的时间戳标注和高质量的文本回复，最终形成了包含1427个问题和3510个真实回复轮次的高质量数据集。数据构建过程严格遵循科学规范，确保了样本的多样性和标注的准确性。

特点

该数据集最显著的特点在于其首创性地将响应时机与文本内容同时纳入评估体系，突破了传统对话系统仅关注文本回复质量的局限。数据集覆盖了网络视频、第一人称视角视频、电视剧视频和监控视频四大领域，具有广泛的应用场景。每个测试样本都包含精确的时间标注和开放式回答，为评估模型在真实场景中的主动交互能力提供了全面基准。数据集的多样性和专业性使其成为视频大语言模型研究领域的重要资源。

使用方法

使用ProactiveVideoQA数据集时，研究人员可通过加载指定格式的JSON文件获取视频、问题和标注信息。每个样本包含视频文件名、用户提问时间点及内容，以及期望的助理回复内容和响应时间范围。评估时需同时考虑模型生成文本的质量和响应时机的准确性。数据集支持端到端的测试流程，研究者可以基于提供的基准代码快速开展实验，并通过对比模型输出与标注答案来全面评估系统性能。

背景与挑战

背景概述

ProactiveVideoQA数据集由王跃骞等研究人员于2025年提出，旨在评估视频大型语言模型在多模态对话场景中的主动交互能力。该数据集由清华大学等机构联合开发，聚焦于突破传统逐轮对话系统的局限，要求模型在视频播放过程中自主判断响应时机并生成合理内容。作为该领域的首个综合性基准测试，其涵盖网络视频理解、第一人称视角视频解析、电视剧对话分析及视频异常检测四大任务，共包含1377个视频样本和3510个真实交互回合。这一创新性工作为视频语言模型的时序推理和内容生成能力提供了标准化评估框架，对智能助理、机器人视觉和安防监控等领域具有重要推动作用。

当前挑战

构建ProactiveVideoQA面临双重挑战：在领域问题层面，视频时序理解与主动决策的耦合机制尚未建立完善，模型需同步处理视觉时序特征、语义连贯性及最佳响应时机的三重约束；在数据集构建层面，多源异构视频的标注需精确对齐时间戳与语义内容，而开放域问答的评判标准需平衡主观性与可量化性。尤其对于第一人称视角视频和异常检测任务，动态视角变化与罕见事件的样本稀缺性进一步增加了数据收集与标注的复杂度。

常用场景

经典使用场景

在视频理解与交互领域，ProactiveVideoQA数据集被广泛用于评估视频大型语言模型在主动交互场景下的表现。通过涵盖网络视频、第一人称视角视频、电视剧视频以及异常监控视频四大任务，该数据集为研究者提供了一个多维度、多场景的测试平台，尤其适用于验证模型在视频播放过程中动态生成响应内容与精准把握响应时机的能力。

解决学术问题

该数据集有效解决了传统视频问答系统被动响应模式的局限性，为主动交互式视频理解研究提供了标准化评估框架。通过引入时间敏感型应答机制和开放域问答任务，它推动了多模态对话系统在时序推理、上下文感知以及跨模态对齐等核心问题上的突破，填补了动态视频交互评估基准的空白。

衍生相关工作

基于该数据集的开创性工作，学术界已衍生出多模态时序注意力机制、增量式视频语义编码器等创新方法。其中最具代表性的是结合强化学习的动态响应决策框架，以及针对长视频理解的层次化记忆网络架构，这些成果被广泛应用于智能客服、自动驾驶等前沿领域。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集