ProactiveBench

Name: ProactiveBench
Creator: 北京大学王选计算机科学技术研究所, 华为诺亚方舟实验室, 北京科技大学智能科学与技术学院, 国家通用人工智能重点实验室
Published: 2025-07-12 23:11:50
License: 暂无描述

arXiv2025-07-12 更新2025-07-16 收录

下载链接：

https://github.com/yellow-binarytree/ProactiveBench

下载链接

链接失效反馈

官方服务：

资源简介：

ProactiveBench是一个全面的基准测试平台，用于评估视频大型语言模型在进行主动交互时的能力。该数据集涵盖了各种视频主题，包括网络视频、第一人称记录、电视剧和监控录像，并整合了多种输入模态，如文本、视频和语音。ProactiveBench旨在促进主动交互研究，其设计考虑到了视频播放过程中模型响应的时间动态性。此外，还提出了PAUC（Proactive Area Under Curve）这一新的评估指标，用于更好地捕捉主动交互系统的性能。

ProactiveBench is a comprehensive benchmark platform for evaluating the capabilities of video large language models during proactive interaction. This benchmark covers diverse video topics including web videos, first-person recordings, TV series, and surveillance footage, and integrates multiple input modalities such as text, video, and speech. ProactiveBench aims to facilitate proactive interaction research, and its design takes into account the temporal dynamics of model responses during video playback. Additionally, a novel evaluation metric named PAUC (Proactive Area Under Curve) is proposed to better capture the performance of proactive interaction systems.

提供机构：

北京大学王选计算机科学技术研究所, 华为诺亚方舟实验室, 北京科技大学智能科学与技术学院, 国家通用人工智能重点实验室

创建时间：

2025-07-12

搜集汇总

数据集介绍

构建方式

ProactiveBench作为首个全面评估视频多模态大语言模型主动交互能力的基准，其构建过程体现了严谨的科学设计。研究团队从多个权威视频理解数据源精选素材，包括Shot2story-MAGQA-39k的网页视频、Ego4D Goalstep的第一人称视频、TVQA的电视剧片段以及UCF-Crime的监控视频。通过创新的数据标注策略，将原始密集视频描述转化为多轮开放式问答对，并采用大语言模型辅助合并语义相近的连续片段，最终形成包含1,377个视频、1,427个问题的跨领域数据集。这种多源数据融合与智能标注方法，确保了基准在覆盖广度与标注质量上的平衡。

特点

该基准最显著的特点是开创性地提出了主动交互场景下的时序动态评估框架。不同于传统静态视频问答数据集，ProactiveBench要求模型在视频播放过程中自主判断响应时机，支持多轮渐进式回答。其特色体现在三方面：首先采用完全开放式问题设计，模拟真实对话场景；其次涵盖网页浏览、第一人称视角、电视剧对话和异常检测四大典型应用场景；最后整合视频、文本、语音多模态输入，构建了接近现实世界的复杂交互环境。这种时序敏感、多模态融合的特性，使其成为评估主动交互系统的理想测试平台。

使用方法

使用ProactiveBench需要遵循其创新的PAUC评估协议。研究人员需将待测模型接入标准化的视频流接口，模型需要实时处理视频片段并自主决定响应时机。评估时采用提出的PAUC指标，该指标通过构建时间-质量折线图，计算曲线下面积来综合评估响应时效性与内容准确性。基准提供ω参数（默认0.5）来调节时效性与准确性的权重平衡，支持根据不同应用场景灵活调整评估侧重点。为简化实验流程，基准已封装标准化的数据加载器和评估工具包，支持主流视频LLM的即插即用式测试。

背景与挑战

背景概述

ProactiveBench是由北京大学王选计算机研究所、华为诺亚方舟实验室等机构的研究团队于2025年提出的首个专注于评估视频大语言模型主动交互能力的基准测试。该数据集针对多模态对话系统中新兴的主动交互范式，解决了传统回合制对话无法满足的实时视频流场景需求，如直播理解、智能监控等应用场景。其创新性体现在设计了支持多轮开放式问答的任务框架，整合了网络视频、自我中心视频、电视剧和监控视频等多模态数据源，并提出了考虑响应时序动态的PAUC评估指标。

当前挑战

该数据集主要面临三方面挑战：在领域问题层面，主动交互要求模型突破传统问答的静态响应模式，需解决实时视频流中的时序决策、多模态线索整合与动态响应生成等复杂问题；在构建过程中，需克服开放式问答标注的高成本难题，以及多轮响应与视频片段的时间对齐问题；在评估维度上，传统文本相似度指标无法捕捉响应时序策略的价值，需开发兼顾时效性与内容质量的创新评估体系。

常用场景

经典使用场景

ProactiveBench作为首个专注于评估视频多模态大模型（Video MLLMs）主动交互能力的基准测试，其经典使用场景集中在实时视频流分析领域。在视频播放过程中，模型需主动识别关键信息片段并自主决定响应时机，例如在直播监控场景中，系统需实时检测异常行为并触发警报，而非被动等待用户查询。这种交互范式突破了传统逐轮对话的局限，要求模型具备动态感知视频时序演进、捕捉多模态线索的能力。

解决学术问题

该数据集解决了主动交互研究领域两大核心问题：一是缺乏针对模型自主决策响应时机的评估标准，传统指标仅关注静态文本质量而忽略时序策略；二是填补了多轮开放式问答任务的空白，现有基准多采用选择题形式或单轮响应，难以反映真实场景的复杂性。通过提出PAUC（Proactive Area Under Curve）指标，首次将响应时间与内容质量纳入统一评估框架，为量化模型在动态环境中的综合表现提供了方法论基础。

衍生相关工作

该数据集催生了VideoLLM-Online、MMDuet等主动交互模型的优化研究，推动了感知-决策-反应解耦框架（Dispider）等新型架构的提出。相关衍生工作聚焦于视频令牌压缩（TimeChat-Online）、多模态指令微调等技术方向，逐步形成从离线批处理到在线流式分析的完整技术链路。PAUC指标更被扩展应用于教育视频自动标注等跨领域任务，验证了其方法论普适性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集