RTV-Bench
收藏github2025-05-03 更新2025-05-04 收录
下载链接:
https://github.com/LJungang/RTV-Bench
下载链接
链接失效反馈官方服务:
资源简介:
RTV-Bench是一个用于评估MLLM实时视频分析的细粒度基准数据集,包含552个视频(167.2小时)和4,631个高质量问答对。数据集包括三个关键原则:多时间戳问答(MTQA)、分层问题结构和多维度评估。
RTV-Bench is a fine-grained benchmark dataset for evaluating real-time video analysis capabilities of Multimodal Large Language Models (MLLMs). It contains 552 videos (totaling 167.2 hours) and 4,631 high-quality question-answer pairs. The dataset is based on three core principles: Multi-Timestamp Question Answering (MTQA), hierarchical question structure, and multi-dimensional evaluation.
创建时间:
2025-04-30
原始信息汇总
RTV-Bench 数据集概述
数据集简介
- 名称: RTV-Bench
- 用途: 用于评估多模态大语言模型(MLLM)在实时视频分析中的连续感知、理解和推理能力
- 数据规模:
- 视频数量: 552个
- 总时长: 167.2小时
- QA对数量: 4,631个高质量问答对
关键特性
- 多时间戳问答(MTQA): 答案随场景变化而演变
- 分层问题结构: 结合基础查询和高级查询
- 多维度评估: 评估连续感知、理解和推理能力
视频分类
- 覆盖3个关键领域和16个子类视频类型
- 问题难度分布: 按8个代表性任务类型分类,以百分比性能范围衡量
- 查询特征分布: 按视频长度分类(浅层、中等、深层),条形图显示计数,折线图叠加各时长区间的查询比例
评估模型
- 专有模型: GPT-4o, Gemini 2.0
- 开源离线模型: Qwen2.5-VL, VideoLLaMA3
- 开源实时模型: VITA-1.5, InternLM-XComposer2.5-OmniLive
主要发现
- 开源实时模型显著优于离线模型,但仍落后于顶级专有模型
- 模型规模增大或帧采样率提高不会显著提升性能,有时会导致轻微下降
数据来源
- Hugging Face: https://huggingface.co/datasets/xunsh/RTV-Bench
- ModelScope: https://www.modelscope.cn/datasets/Jungang/RTV-Bench
搜集汇总
数据集介绍

构建方式
在多媒体分析与人工智能交叉领域,RTV-Bench通过精心设计的采集流程构建了高质量基准数据集。研究团队从三大核心领域(日常生活、专业场景、特殊事件)中筛选了552段总时长167.2小时的视频素材,采用分层抽样策略确保16个子类别的均衡覆盖。每段视频均经过专业标注团队处理,生成4,631组多维度问答对,其中问题设计遵循多时间戳应答(MTQA)机制,要求模型动态跟踪场景变化。标注过程采用双盲校验机制,最终数据通过Krippendorff's α系数检验达到0.82的标注一致性阈值。
特点
该数据集最显著的特征体现在其三维评估体系架构上。视频内容按照认知深度划分为浅层感知、中度理解和深度推理三个层级,其中38%的问题涉及跨帧时序推理。问题类型采用金字塔式分层设计,基础性问题(如物体识别)与高阶问题(如因果推断)的比例严格控制在1:1.5。特别值得注意的是,数据集中包含12%的对抗性样本,专门用于测试模型在模糊场景下的鲁棒性。所有视频均附带精确到毫秒级的时间戳标注,支持细粒度的连续感知能力评估。
使用方法
使用该数据集时建议采用渐进式评估策略。研究者可通过HuggingFace或ModelScope平台获取标准化数据包,其中包含视频文件、元数据及预分割的训练/验证/测试集。评估过程需特别注意时序对齐问题,官方提供的评估工具包支持帧级精度(FPA)和事件重合度(IoE)两项核心指标计算。对于实时性测试,建议使用配套的流式数据模拟器,该工具能以可变速率(1-30fps)推送视频流,并自动记录模型响应延迟。需要注意的是,跨模态融合任务应严格遵循官方提供的特征提取协议,以确保实验结果的可比性。
背景与挑战
背景概述
RTV-Bench是由研究团队于2025年5月推出的多模态大语言模型(MLLM)实时视频分析基准测试数据集。该数据集包含552个视频(总计167.2小时)和4,631个高质量问答对,旨在评估MLLM在连续感知、理解和推理方面的能力。RTV-Bench覆盖3个关键领域和16个子类视频类型,采用多时间戳问答(MTQA)、分层问题结构和多维度评估三大核心设计原则。通过对GPT-4o、Gemini 2.0等主流模型的系统评测,该数据集揭示了当前MLLM在实时视频处理中的性能瓶颈,为优化模型架构和长序列处理提供了重要参考依据。
当前挑战
RTV-Bench主要解决实时视频流分析中的三大核心挑战:连续动态场景理解、多粒度推理能力评估,以及长序列视频内容处理。在构建过程中面临视频时序标注复杂性、问答对的多维度设计平衡等难题。实验结果表明,现有模型在实时视频分析中存在显著局限:开源实时模型虽优于离线模型,但与顶级专有模型差距明显;增大模型规模或提高帧采样率并不能有效提升性能,反而可能导致轻微下降。这些发现凸显了开发专为视频流优化的模型架构的迫切需求,特别是在长序列处理和实时推理效率方面的技术突破。
常用场景
经典使用场景
在多媒体智能分析领域,RTV-Bench数据集为多模态大语言模型(MLLM)的实时视频理解能力提供了标准化测试平台。其552个视频样本和4631组问答对构建了涵盖16个子类的复杂场景,尤其适用于评估模型在动态视觉信息流中的持续感知与推理性能。研究者通过多时间戳问答(MTQA)任务,能够精确量化模型对场景演变的跟踪能力,这种细粒度评估方式已成为视频理解研究的黄金标准。
解决学术问题
该数据集有效解决了视频时序理解中的三大核心难题:长序列信息关联断裂、动态场景语义漂移以及多粒度推理能力评估。通过分层问题结构和多维度评价体系,首次实现了对模型实时处理能力与认知深度的可量化比较。实验数据揭示了采样率与模型性能的非线性关系,颠覆了传统视频分析依赖高帧率的认知,为面向视频流的专用架构设计提供了理论依据。
衍生相关工作
基于该基准测试的发现,学术界相继提出了VITA-1.5等实时视频专用架构,其时空注意力机制显著提升了长视频理解效率。微软亚洲研究院开发的OmniLive框架借鉴了MTQA评估思想,实现了跨模态信息的动态对齐。相关成果已在CVPR和ICML等顶会形成专项研讨会,推动视频理解从静态分析向实时交互范式转变。
以上内容由遇见数据集搜集并总结生成



