MT-Video-Bench

github2025-10-21 更新2025-10-23 收录

下载链接：

https://github.com/NJU-LINK/MT-Video-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

MT-Video-Bench是一个全面的视频理解基准数据集，用于评估多模态大语言模型在多轮对话中的表现。它包含来自5个主要类别和23个子类别的135个视频，987个对话（每个对话5-8轮）和5,805个问答对，用于评估六项核心能力：对象引用、记忆回忆、内容总结、答案拒绝、主题转换和主动交互。该数据集支持长达20分钟的长视频评估，具有挑战性，目前最佳模型仅达到68.45%的整体准确率。

MT-Video-Bench is a comprehensive video understanding benchmark dataset for evaluating the performance of multimodal large language models in multi-turn conversational scenarios. It includes 135 videos covering 5 main categories and 23 subcategories, 987 conversations (each containing 5 to 8 turns), and 5,805 question-answer pairs, which are designed to assess six core capabilities: object reference, memory recall, content summarization, answer refusal, topic transition, and active interaction. This dataset supports evaluation of long videos up to 20 minutes in duration, and it presents substantial challenges—currently, the state-of-the-art model only attains an overall accuracy of 68.45%.

创建时间：

2025-10-14

原始信息汇总

MT-Video-Bench 数据集概述

数据集简介

MT-Video-Bench 是一个用于评估多模态大语言模型在多轮对话中视频理解能力的综合性基准测试。该基准填补了现有评估基准仅限于单轮问答的空白，强调跨场景推理、长距离依赖和交互适应性，更贴近实际应用需求。

数据集规模

视频数量：135个视频
视频分类：涵盖5个主要类别和23个子类别
对话数量：987个对话
问答对数量：5,805个问答对
对话轮次：每个对话包含5-8轮
视频时长：最长可达20分钟

核心评估能力

数据集评估六个核心能力：

对象引用
记忆回忆
内容总结
答案拒绝
主题转换
主动交互

数据构建流程

视频收集与单场景分割：手动收集视频→使用PySceneDetect分割成短片段→为每个片段生成描述→基于描述合并相关片段形成连贯的单场景视频
跨场景视频合并：提取关键帧→执行对象检测→构建动态对象记忆库→检索并合并共享共同对象或主题的片段
多轮对话生成：使用Gemini 2.5自动生成单场景和跨场景多轮对话→为每个场景选择最合适的任务→采用以对象为中心的方法设计跨场景问题
人工质量控制：移除信息泄露案例→手动验证问答对齐、事实正确性和难度→确保高质量、上下文连贯的多轮对话

评估结果

模型挑战性：极具挑战性，表现最佳的模型仅达到68.45%的整体准确率
评估模型：涵盖闭源和开源多模态大语言模型，包括Gemini 2.5 Pro、Gemini 2.5 Flash、Doubao-Seed-1.6-vision以及18个代表性开源模型

许可证信息

许可证类型：CC-BY-NC-SA-4.0
使用限制：仅限研究用途，禁止商业使用
版权声明：不拥有任何原始视频文件的版权

引用信息

如需在研究中使用本数据集，请引用相关论文。

搜集汇总

数据集介绍

构建方式

在视频理解研究领域，构建高质量数据集需兼顾内容的多样性与逻辑的连贯性。MT-Video-Bench通过四阶段流程实现数据构建：首先从五大类别中手动采集原始视频并利用PySceneDetect进行单场景分割，随后基于动态物体记忆库实现跨场景片段融合，接着采用Gemini 2.5自动生成包含六类核心能力的多轮对话，最终通过人工质控确保问答对齐与事实准确性，形成包含5,805组问答对的高质量语料。

特点

该数据集在视频理解基准中具有显著特性：涵盖135个长达20分钟的视频样本，包含987组5-8轮次的多轮对话，其独特之处在于同时支持单场景与跨场景推理任务，覆盖物体指代、主题转换等六维能力评估。数据分布跨越影视、体育等五大领域，当前最优模型仅取得68.45%的准确率，充分体现了其在长视频理解与复杂对话建模方面的挑战性。

使用方法

对于多模态大语言模型的评估应用，研究者可通过标准流程使用本数据集：基于提供的推理脚本加载模型并处理视频对话数据，执行多轮交互式问答测试，最后通过专用评估脚本量化模型在六项核心能力上的表现。该流程支持闭源与开源模型的横向对比，为视频理解研究提供标准化评测框架。

背景与挑战

背景概述

随着多模态大语言模型在视频理解领域的快速发展，现有评估基准大多局限于单轮问答任务，难以模拟真实场景中复杂的多轮对话交互。MT-Video-Bench由NJU-LINK团队于2025年推出，聚焦多轮对话情境下的视频理解能力评估。该数据集涵盖135个跨领域视频，构建987组多轮对话与5805组问答对，通过六项核心能力维度系统检验模型的场景推理、长程依赖与交互适应性，为视频理解研究提供了更贴近实际应用的评估框架。

当前挑战

在解决多轮视频对话理解这一核心问题时，模型需应对跨场景语义关联、长期记忆保持及动态话题转换等复杂挑战。数据构建过程中面临视频素材跨场景融合的技术难点，需通过动态对象记忆库实现语义连贯的片段拼接。同时，多轮对话生成需平衡任务多样性与逻辑一致性，人工质检环节需确保问答对在时序逻辑与事实准确性方面的严格对齐，这些因素共同构成了数据集构建的技术壁垒。

常用场景

经典使用场景

在视频理解研究领域，MT-Video-Bench作为多轮对话评估基准，主要用于测试多模态大语言模型对长视频内容的理解与交互能力。该数据集通过包含987组跨场景多轮对话，模拟真实人机交互场景，要求模型在连续对话中保持上下文一致性，特别适用于评估模型在对象指代、记忆回溯等六项核心能力上的表现。

衍生相关工作

基于该数据集衍生的经典研究包括Qwen2.5-VL、InternVL3.5等模型的深度优化工作，这些研究通过分析模型在跨场景任务中的表现差异，推动了动态对象记忆库、多粒度视频表征等技术创新。相关成果进一步催生了面向长视频理解的专用架构设计，为多模态对话系统的发展奠定了理论基础。

数据集最近研究