ProactiveVideoQA
收藏ProactiveVideoQA 数据集概述
数据集简介
ProactiveVideoQA 是首个全面评估多模态对话设置中系统主动交互能力的基准测试。与传统轮流对话系统不同,该数据集要求模型在视频播放过程中决定何时响应,因此响应时间和响应文本内容均为重要评估点。
数据集统计
包含4类任务:
- 主动网络视频问答
[WEB]:聚焦通用网络视频理解 - 主动第一人称视频问答
[EGO]:侧重机器人/日常助手应用的第一人称视角理解 - 主动电视剧视频问答
[TV]:强调带语音输入的对话与社会关系理解 - 主动视频异常检测
[VAD]:针对监控视频的警报场景
核心数据量:
- 1377 个来源各异的视频
- 1427 个不同问题,3510 个真实回复节点
- 全主动式提问与开放式答案
数据格式
示例文件路径:{dataset}/anno.json
json
{
"question_id": "视频唯一标识",
"video": "视频文件名",
"conversation": [
{"role": "用户", "time": 提问时间戳, "content": "问题文本"}
],
"answer": [
{
"role": "助手",
"content": "回复文本",
"reply_timespan": [响应开始时间, 响应结束时间]
}
]
}
引用信息
bibtex @misc{wang2025proactivevideoqacomprehensivebenchmarkevaluating, title={ProactiveVideoQA: A Comprehensive Benchmark Evaluating Proactive Interactions in Video Large Language Models}, author={Yueqian Wang and Xiaojun Meng and Yifan Wang and Huishuai Zhang and Dongyan Zhao}, year={2025}, eprint={2507.09313}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.09313}, }




