VideoVista

Name: VideoVista
Creator: 哈尔滨工业大学深圳研究院
Published: 2024-06-17 16:09:00
License: 暂无描述

arXiv2024-06-17 更新2024-06-19 收录

下载链接：

https://github.com/HITsz-TMG/UMOE-Scaling-Unified-Multimodal-LLMs/tree/master/VideoVista

下载链接

链接失效反馈

官方服务：

资源简介：

VideoVista是一个综合性的视频理解与推理评估基准，由哈尔滨工业大学深圳研究院创建。该数据集包含3,400个视频，涵盖14个类别，总时长从几秒到超过10分钟不等，共衍生出25,000个问题。数据集的创建过程利用了GPT-4模型和先进的视频分析工具，确保了数据的高质量和多样性。VideoVista主要用于评估大型多模态模型在视频理解任务中的表现，特别是解决视频内容分析中的细粒度任务和逻辑推理问题。

VideoVista is a comprehensive video understanding and reasoning evaluation benchmark developed by the Harbin Institute of Technology Shenzhen Research Institute. This dataset comprises 3,400 videos spanning 14 categories, with durations ranging from several seconds to over 10 minutes, and a total of 25,000 derived questions. The dataset construction process leverages GPT-4 models and advanced video analysis tools to ensure high data quality and diversity. VideoVista is primarily used to evaluate the performance of large multimodal models in video understanding tasks, particularly for addressing fine-grained tasks and logical reasoning problems in video content analysis.

提供机构：

哈尔滨工业大学深圳研究院

创建时间：

2024-06-17

搜集汇总

数据集介绍

构建方式

VideoVista数据集的构建采用了一套自动化的数据构造框架，结合了GPT-4o的强大生成能力和先进的视频分析工具（如视频分割、对象分割与追踪）。首先从YouTube下载894个涵盖14个类别的完整视频，通过语义感知的视频分割算法将其切分为3,402个语义连贯的短视频片段。随后，利用CLIP模型进一步分割超过40秒的长片段，并通过随机合并生成不同时长的视频。在标注阶段，GPT-4o基于视频帧、标题、类别和音频转录信息，自动生成动作、事件和对象的标注，并进一步转化为涵盖19种理解任务和8种推理任务的25,000个问答对。为确保数据质量，针对易错任务（如对象计数、异常检测）进行了人工验证与过滤。

使用方法

使用VideoVista时，研究者可通过其分层任务体系对模型能力进行模块化评估：理解任务侧重时空细节捕捉（如动作定位、对象追踪），推理任务则测试逻辑链构建与跨模态关联能力（如反事实推理）。评估时需注意商业模型（如GPT-4o）与开源模型的输入差异——前者支持百帧均匀采样，后者多采用固定帧编码。对于关系推理等特殊任务，需按规范处理多视频/图像输入。数据集提供标准化的多选QA格式，选项长度经平衡处理以避免偏差，所有任务示例均附带时间戳和空间坐标标注，支持细粒度错误分析。

背景与挑战

背景概述

VideoVista是由哈尔滨工业大学（深圳）的研究团队于2024年提出的视频理解与推理基准数据集，旨在全面评估大型多模态模型（LMMs）在视频问答任务中的性能。该数据集包含来自14个不同类别的3,402个视频，时长从几秒到超过10分钟不等，并生成了25,000个问题，覆盖19种理解任务和8种推理任务。VideoVista通过自动数据构建框架，结合GPT-4o和先进的视频分析工具（如视频分割、对象分割和跟踪），显著提升了视频相关LMMs（Video-LMMs）的能力评估。该数据集的推出填补了当前视频分析领域缺乏全面评估基准的空白，为视频理解与推理研究提供了重要的数据支持。

当前挑战

VideoVista面临的挑战主要包括两方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，数据集旨在解决视频理解与推理中的复杂任务，如时间定位、对象跟踪和异常检测等，这些任务对模型的细粒度理解能力提出了较高要求。此外，逻辑和关系推理任务（如视频-视频关系推断）也是当前Video-LMMs的薄弱环节。在构建过程中，挑战包括长视频的处理与标注，以及确保生成的问题-答案对的准确性和多样性。尽管采用了自动标注框架，但GPT-4o的幻觉问题仍可能导致标注错误，需要通过人工过滤和验证来确保数据质量。

常用场景

解决学术问题

VideoVista解决了当前视频分析领域缺乏综合性评估基准的问题，尤其针对长视频处理、多类别内容理解及复杂推理能力的测评空白。通过设计时序定位、逻辑推理等27项任务，该数据集揭示了开源Video-LMMs在细粒度任务（如对象计数准确率低20%）和长视频理解（超过1分钟视频性能下降显著）上的关键缺陷，为模型优化提供了明确方向。其构建方法还推动了自动视频标注技术的发展，降低了高质量数据集的制作门槛。

实际应用

该数据集的实际应用场景覆盖智能视频摘要、内容安全审核和交互式视频问答系统。在教育领域，可辅助开发能解析教学视频中实验步骤的AI助手；在安防场景，其异常检测任务支持暴力、色情等违规内容的自动识别；影视工业中则可用于角色行为轨迹分析和剧情逻辑验证。数据集中10分钟以上长视频的评估能力，使其特别适合流媒体平台的内容理解引擎开发。

数据集最近研究