OVBench

Name: OVBench
Creator: 南京大学, 中国移动研究院, OpenGVLab, 上海人工智能实验室
Published: 2025-01-01 02:17:05
License: 暂无描述

arXiv2025-01-01 更新2025-01-06 收录

下载链接：

https://videochat-online.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

OVBench是一个专门为在线视频理解设计的问答基准，由南京大学、中国移动研究院和OpenGVLab等机构联合开发。该数据集包含5000个高质量的时空细节标注，涵盖了电影、教学、道路场景、户外、室内和开放领域等7个不同领域的数据。数据集的创建过程包括任务定义、数据收集、问答生成和多选题生成，确保了标注的高质量和多样性。OVBench旨在评估模型在在线视频流中的时空细节理解能力，适用于自动驾驶、机器人助手和监控系统等实时应用场景。

OVBench is a question-answering benchmark specifically designed for online video understanding, jointly developed by institutions including Nanjing University, China Mobile Research Institute, OpenGVLab, and others. This dataset contains 5,000 high-quality spatio-temporal detail annotations, covering data from 7 distinct domains including movies, teaching, road scenarios, outdoor, indoor, and open-domain scenarios. The dataset creation process covers task definition, data collection, question-answering generation and multiple-choice question generation, ensuring the high quality and diversity of annotations. OVBench aims to evaluate the spatio-temporal detail understanding capability of models in online video streams, and is suitable for real-time application scenarios such as autonomous driving, robotic assistants and monitoring systems.

提供机构：

南京大学, 中国移动研究院, OpenGVLab, 上海人工智能实验室

创建时间：

2025-01-01

搜集汇总

数据集介绍

构建方式

OVBench数据集的构建基于多模态大语言模型（MLLMs）在实时在线视频理解中的应用需求。该数据集通过整合来自七个不同领域的七个数据集，设计了六个核心任务类型，涵盖了16个子任务。数据集的构建过程包括任务定义、数据收集、问答生成以及多选问题的生成。为确保高质量标注，数据集采用了人工标注者生成5000个高质量的时空细节标注。此外，数据集还通过引入金字塔记忆库（PMB）和离线到在线的学习范式，进一步增强了模型的时空理解能力。

特点

OVBench数据集的特点在于其专注于实时在线视频理解的评估，涵盖了三个时间上下文——过去、现在和未来。数据集包含六个核心任务类型，涉及空间感知、时空感知、时间感知、过去记忆、幻觉验证和未来预测等任务。这些任务通过多样化的子任务设计，确保了数据集在复杂场景下的广泛适用性。此外，数据集还通过引入多层次的记忆库结构，有效平衡了空间和时间信息的保留，提升了模型在实时视频流中的表现。

使用方法

OVBench数据集的使用方法主要包括模型的评估和训练。在评估阶段，数据集通过滑动窗口和流式输入两种方式对模型进行测试，确保模型能够在不同时间上下文中准确理解视频内容。在训练阶段，数据集通过离线到在线的学习范式，结合离线视频数据和在线视频指令调优数据，逐步提升模型的时空理解能力。此外，数据集还支持多轮对话场景的测试，确保模型能够在复杂的实时视频流中保持高效的表现。

背景与挑战

背景概述

OVBench是由南京大学、中国移动研究院和上海人工智能实验室的研究团队于2024年提出的一个专注于在线视频理解的综合性基准测试。该数据集旨在评估多模态大语言模型（MLLMs）在实时处理连续视频流时的感知、记忆和推理能力。OVBench涵盖了六个核心任务类型，涉及过去、现在和未来三个时间上下文，共包含16个子任务，数据来源于多个领域的七个数据集。通过引入高质量的人工标注，OVBench为在线视频理解的研究提供了丰富的评估场景。该数据集的推出填补了现有视频理解基准测试在实时在线场景中的空白，推动了自动驾驶、人机交互等领域的应用研究。

当前挑战

OVBench面临的挑战主要体现在两个方面。首先，在线视频理解要求模型能够实时处理无限长的视频流，并在有限的计算资源下保留关键的时空信息。现有的离线视频理解模型在处理实时视频流时，往往难以兼顾细粒度的空间细节和长距离的时间依赖关系，导致计算复杂度高、延迟大。其次，构建OVBench的过程中，研究人员需要设计复杂的任务类型和标注流程，确保每个任务能够准确反映在线视频的时空特性。此外，如何在不同时间上下文中生成高质量的问答对，并确保问题的多样性和难度，也是构建过程中的一大挑战。

常用场景

经典使用场景

OVBench数据集专为评估在线视频理解模型而设计，涵盖了从过去、现在到未来的六个核心任务类型，共16个子任务。其经典使用场景包括自动驾驶、人机交互和监控系统等实时视频流处理场景。通过模拟真实世界的连续视频流，OVBench能够全面测试模型在时空感知、记忆和推理方面的能力，尤其是在处理无限长视频流时的表现。

衍生相关工作

OVBench的推出催生了一系列相关研究工作，尤其是在在线视频理解模型的架构设计和训练策略方面。基于OVBench，研究者提出了VideoChat-Online模型，该模型通过金字塔记忆库和离线到在线的学习范式，显著提升了在线视频理解的性能。此外，OVBench还激发了更多关于在线视频理解基准的研究，如VideoLLM-Online和Flash-VStream等，进一步推动了该领域的发展。

数据集最近研究