RTV-Bench
收藏arXiv2025-05-04 更新2025-05-08 收录
下载链接:
https://github.com/LJungang/RTV-Bench
下载链接
链接失效反馈官方服务:
资源简介:
RTV-Bench是一个细粒度的基准数据集,用于评估多模态大型语言模型(MLLM)在实时视频分析中的连续感知、理解和推理能力。该数据集包括552个多样化的视频(共计167.2小时)和4631个高质量的问答对。RTV-Bench采用了三个关键原则:多时间戳问答(MTQA)、分层问题结构和多维度评估。数据集内容丰富,涵盖了智能驾驶、体育赛事和第一人称视角视频等多个领域,旨在解决当前基准在评估实时视频分析能力方面的不足。
RTV-Bench is a fine-grained benchmark dataset designed to evaluate the sequential perception, understanding and reasoning capabilities of multimodal large language models (MLLMs) in real-time video analysis. This dataset includes 552 diverse videos with a total duration of 167.2 hours and 4631 high-quality question-answer pairs. RTV-Bench adopts three core principles: multi-timestamp question answering (MTQA), hierarchical question structure and multi-dimensional evaluation. It covers a wide range of domains including intelligent driving, sporting events and first-person perspective videos, aiming to address the limitations of current benchmarks in evaluating real-time video analysis capabilities.
提供机构:
哈尔滨工业大学(HIT), 香港科技大学(广州)(HKUST(GZ)), 香港科技大学(HKUST), 西北工业大学(XJTU), 山东大学(SDU), 城市大学(CityU), 华中科技大学(HUST)
创建时间:
2025-05-04
原始信息汇总
RTV-Bench 数据集概述
数据集简介
- 名称: RTV-Bench
- 目的: 用于评估多模态大语言模型(MLLM)在实时视频分析中的持续感知、理解和推理能力
- 数据规模:
- 视频数量: 552个
- 总时长: 167.2小时
- QA对数量: 4,631个高质量问答对
关键特性
- 多时间戳问答 (MTQA): 答案随场景变化而演变
- 分层问题结构: 结合基础查询和高级查询
- 多维度评估: 评估持续感知、理解和推理能力
视频分类
- 覆盖3个关键领域和16个子类视频类型
- 问题难度分布:
- 按8个代表性任务类型划分
- 按视频长度分为浅层、中等和深层三个级别
评估模型
- 专有模型: GPT-4o, Gemini 2.0
- 开源离线模型: Qwen2.5-VL, VideoLLaMA3
- 开源实时模型: VITA-1.5, InternLM-XComposer2.5-OmniLive
主要发现
- 开源实时模型显著优于离线模型,但仍落后于顶级专有模型
- 更大的模型规模或更高的帧采样率不会显著提升性能,有时会导致轻微下降
数据获取
- Hugging Face: https://huggingface.co/datasets/xunsh/RTV-Bench
- ModelScope: https://www.modelscope.cn/datasets/Jungang/RTV-Bench
待发布内容
- 最终标签json文件
- 评估代码
- 更全面的实时视频分析基准
可视化内容
- 视频类别分布
- 问题难度和查询特征分布
- 评估结果对比
搜集汇总
数据集介绍

构建方式
RT V-Bench数据集的构建过程体现了对动态视频分析的严谨考量。研究团队从EgoSchema和公开网络视频中筛选了552段高动态性长视频(总时长167.2小时),通过人工审核确保视频质量与多样性。在标注环节,采用LLM生成问题模板与人工精修相结合的方式,特别设计了4,631组多时间戳问答对(MTQA),其中同一概念性问题会随视频时间推移产生动态答案变化。标注过程中专家团队严格确定每个选项的最早有效时间戳,并通过多轮人工校验保证时间对齐精度和敏感信息过滤,最终形成覆盖智能驾驶、体育赛事等三大领域的评估体系。
特点
该数据集的核心特征在于其创新的三维评估框架:多时间戳问答机制通过动态正确答案检验模型的实时追踪能力;分层问题结构要求模型从基础感知到高级推理逐级递进,避免认知捷径;八维度细粒度评估体系(包括时空感知、意图分析等)提供全面的能力诊断。相比传统视频基准,RT V-Bench的独特价值体现在其167.2小时视频中嵌入的时序动态问答设计,以及每个问题组内基础题与进阶题的逻辑依赖性,这为评估多模态大模型的连续分析能力设立了新标准。
使用方法
使用RT V-Bench时需要区分在线与离线模型的评估模式。对于在线模型(如IXC2.5-OL),系统会实时输入视频流并记录模型在查询时间点tq基于内部状态Stq生成的答案;而离线模型(如VideoLLaMA2)则需提取与问题时间戳对应的视频片段进行独立分析。评估采用准确率(Accuracy)和条件得分(Score)双指标,后者特别关注模型在正确回答基础问题前提下解决进阶问题的能力。研究者可通过官方工具包实现标准化测试,重点分析模型在时空感知、现象学理解等八个维度的表现差异,尤其注意多时间戳问题中模型对场景演变的跟踪准确性。
背景与挑战
背景概述
RTV-Bench是由哈尔滨工业大学、香港科技大学等机构的研究团队于2025年提出的多模态大语言模型(MLLM)实时视频分析基准测试。该数据集针对动态实时视频场景中的连续感知、理解和推理能力评估这一核心研究问题,填补了现有基准在实时响应性和动态场景追踪评估方面的空白。数据集包含552个总计167.2小时的多样化视频和4,631个高质量问答对,其创新性体现在多时间戳问答机制、分层问题结构和多维度评估体系三大设计原则。该基准的建立推动了视频理解模型从静态分析向实时流式处理的范式转变,为通用人工智能在动态环境中的认知能力评估提供了重要工具。
当前挑战
RTV-Bench揭示了视频MLLM面临的双重挑战:在领域问题层面,模型需解决动态场景中连续状态追踪(如体育赛事实时动作解析)、瞬时细节捕捉(如交通信号灯变化识别)和长时序依赖建模(如跨片段事件关联)等难题,现有模型在MTQA任务上平均准确率不足50%。在构建层面,数据标注需精确处理时间演化答案的对应关系(如同一问题在不同时间戳的正确答案标注),视频筛选需平衡实时性需求与场景多样性(涵盖智能驾驶、体育赛事等16个子类),且评估体系需设计能反映层次化推理能力的复合指标(如基础问题正确率与高级问题得分的条件关联)。实验表明,单纯增加模型规模或输入帧数对性能提升有限,凸显了模型架构创新的必要性。
常用场景
经典使用场景
RTV-Bench作为多模态大语言模型(MLLMs)实时视频分析的基准测试工具,其经典使用场景主要聚焦于动态环境下的连续感知、理解与推理能力评估。通过多时间戳问答机制(MTQA),该数据集模拟了体育赛事直播、智能驾驶等场景中信息实时演变的特性,要求模型在视频流持续输入的同时,动态更新对场景状态的认知并准确回答随时间变化的问题。例如,在足球比赛视频中,模型需根据球员实时动作判断当前得分队伍,或预测接下来可能发生的战术行为,充分验证了MLLMs处理时序动态信息的能力。
解决学术问题
RTV-Bench针对当前视频理解领域的核心挑战,系统性地解决了三大学术问题:其一,突破了传统静态问答评估的局限,通过动态答案设计验证模型对时序变化的敏感度;其二,构建了层次化问题结构,揭示了模型从基础感知到高级推理的认知链路完整性;其三,提出多维评估体系,首次将实时视频分析能力解构为时空感知、意图分析等8个维度。这些创新为衡量MLLMs在长视频理解中的记忆保持、注意力分配等机制提供了量化标准,填补了实时流媒体场景下模型评估的理论空白。
衍生相关工作
该数据集的发布催生了多个标志性研究方向。在模型架构方面,VITA-1.5提出的阶段性融合策略直接受RTV-Bench评估启发;评估方法论上,StreamingBench扩展了其实时响应测试维度;数据集构建领域,OVO-Bench借鉴了其多层次问题设计。尤为重要的是,该基准揭示的模型规模与性能非线性关系(如Qwen2.5-VL不同参数版本表现趋同),推动了轻量化实时视频模型的研究热潮,相关成果已在InternLM-XComposer2.5等开源项目中得到实践验证。
以上内容由遇见数据集搜集并总结生成



