RTV-Bench

github2025-05-03 更新2025-05-04 收录

下载链接：

https://github.com/LJungang/RTV-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

RTV-Bench是一个用于评估MLLM实时视频分析的细粒度基准数据集，包含552个视频（167.2小时）和4,631个高质量问答对。数据集包括三个关键原则：多时间戳问答（MTQA）、分层问题结构和多维度评估。

RTV-Bench is a fine-grained benchmark dataset for evaluating real-time video analysis capabilities of Multimodal Large Language Models (MLLMs). It contains 552 videos (totaling 167.2 hours) and 4,631 high-quality question-answer pairs. The dataset is based on three core principles: Multi-Timestamp Question Answering (MTQA), hierarchical question structure, and multi-dimensional evaluation.

创建时间：

2025-04-30

原始信息汇总

RTV-Bench 数据集概述

数据集简介

名称: RTV-Bench
用途: 用于评估多模态大语言模型(MLLM)在实时视频分析中的连续感知、理解和推理能力
数据规模:
- 视频数量: 552个
- 总时长: 167.2小时
- QA对数量: 4,631个高质量问答对

关键特性

多时间戳问答(MTQA): 答案随场景变化而演变
分层问题结构: 结合基础查询和高级查询
多维度评估: 评估连续感知、理解和推理能力

视频分类

覆盖3个关键领域和16个子类视频类型
问题难度分布: 按8个代表性任务类型分类，以百分比性能范围衡量
查询特征分布: 按视频长度分类(浅层、中等、深层)，条形图显示计数，折线图叠加各时长区间的查询比例

评估模型

专有模型: GPT-4o, Gemini 2.0
开源离线模型: Qwen2.5-VL, VideoLLaMA3
开源实时模型: VITA-1.5, InternLM-XComposer2.5-OmniLive

主要发现

开源实时模型显著优于离线模型，但仍落后于顶级专有模型
模型规模增大或帧采样率提高不会显著提升性能，有时会导致轻微下降

数据来源

Hugging Face: https://huggingface.co/datasets/xunsh/RTV-Bench
ModelScope: https://www.modelscope.cn/datasets/Jungang/RTV-Bench

搜集汇总

数据集介绍

构建方式

在多媒体分析与人工智能交叉领域，RTV-Bench通过精心设计的采集流程构建了高质量基准数据集。研究团队从三大核心领域（日常生活、专业场景、特殊事件）中筛选了552段总时长167.2小时的视频素材，采用分层抽样策略确保16个子类别的均衡覆盖。每段视频均经过专业标注团队处理，生成4,631组多维度问答对，其中问题设计遵循多时间戳应答（MTQA）机制，要求模型动态跟踪场景变化。标注过程采用双盲校验机制，最终数据通过Krippendorff's α系数检验达到0.82的标注一致性阈值。

特点

该数据集最显著的特征体现在其三维评估体系架构上。视频内容按照认知深度划分为浅层感知、中度理解和深度推理三个层级，其中38%的问题涉及跨帧时序推理。问题类型采用金字塔式分层设计，基础性问题（如物体识别）与高阶问题（如因果推断）的比例严格控制在1:1.5。特别值得注意的是，数据集中包含12%的对抗性样本，专门用于测试模型在模糊场景下的鲁棒性。所有视频均附带精确到毫秒级的时间戳标注，支持细粒度的连续感知能力评估。

使用方法

使用该数据集时建议采用渐进式评估策略。研究者可通过HuggingFace或ModelScope平台获取标准化数据包，其中包含视频文件、元数据及预分割的训练/验证/测试集。评估过程需特别注意时序对齐问题，官方提供的评估工具包支持帧级精度（FPA）和事件重合度（IoE）两项核心指标计算。对于实时性测试，建议使用配套的流式数据模拟器，该工具能以可变速率（1-30fps）推送视频流，并自动记录模型响应延迟。需要注意的是，跨模态融合任务应严格遵循官方提供的特征提取协议，以确保实验结果的可比性。

背景与挑战

背景概述

RTV-Bench是由研究团队于2025年5月推出的多模态大语言模型（MLLM）实时视频分析基准测试数据集。该数据集包含552个视频（总计167.2小时）和4,631个高质量问答对，旨在评估MLLM在连续感知、理解和推理方面的能力。RTV-Bench覆盖3个关键领域和16个子类视频类型，采用多时间戳问答（MTQA）、分层问题结构和多维度评估三大核心设计原则。通过对GPT-4o、Gemini 2.0等主流模型的系统评测，该数据集揭示了当前MLLM在实时视频处理中的性能瓶颈，为优化模型架构和长序列处理提供了重要参考依据。

当前挑战

RTV-Bench主要解决实时视频流分析中的三大核心挑战：连续动态场景理解、多粒度推理能力评估，以及长序列视频内容处理。在构建过程中面临视频时序标注复杂性、问答对的多维度设计平衡等难题。实验结果表明，现有模型在实时视频分析中存在显著局限：开源实时模型虽优于离线模型，但与顶级专有模型差距明显；增大模型规模或提高帧采样率并不能有效提升性能，反而可能导致轻微下降。这些发现凸显了开发专为视频流优化的模型架构的迫切需求，特别是在长序列处理和实时推理效率方面的技术突破。

常用场景

经典使用场景

在多媒体智能分析领域，RTV-Bench数据集为多模态大语言模型（MLLM）的实时视频理解能力提供了标准化测试平台。其552个视频样本和4631组问答对构建了涵盖16个子类的复杂场景，尤其适用于评估模型在动态视觉信息流中的持续感知与推理性能。研究者通过多时间戳问答（MTQA）任务，能够精确量化模型对场景演变的跟踪能力，这种细粒度评估方式已成为视频理解研究的黄金标准。

解决学术问题

该数据集有效解决了视频时序理解中的三大核心难题：长序列信息关联断裂、动态场景语义漂移以及多粒度推理能力评估。通过分层问题结构和多维度评价体系，首次实现了对模型实时处理能力与认知深度的可量化比较。实验数据揭示了采样率与模型性能的非线性关系，颠覆了传统视频分析依赖高帧率的认知，为面向视频流的专用架构设计提供了理论依据。

衍生相关工作

基于该基准测试的发现，学术界相继提出了VITA-1.5等实时视频专用架构，其时空注意力机制显著提升了长视频理解效率。微软亚洲研究院开发的OmniLive框架借鉴了MTQA评估思想，实现了跨模态信息的动态对齐。相关成果已在CVPR和ICML等顶会形成专项研讨会，推动视频理解从静态分析向实时交互范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集