StreamingBench

github2024-11-25 更新2024-11-28 收录

下载链接：

https://github.com/THUNLP-MT/StreamingBench

下载链接

链接失效反馈

官方服务：

资源简介：

StreamingBench评估多模态大语言模型（MLLMs）在实时流视频理解任务中的表现。该数据集包含900个多样化的视频，4500个人工注释的问答对，每个视频在不同时间戳有五个问题。数据集涵盖了实时视觉理解、全源理解、上下文理解等关键评估方面。

StreamingBench evaluates the performance of multimodal large language models (MLLMs) on real-time streaming video understanding tasks. This dataset includes 900 diverse videos and 4,500 manually annotated question-answer pairs, with each video having five questions at different timestamps. The dataset covers key evaluation dimensions including real-time visual understanding, holistic source understanding, and contextual understanding.

创建时间：

2024-11-05

原始信息汇总

StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding

概述

StreamingBench 评估多模态大语言模型（MLLMs）在实时流媒体视频理解任务中的表现。

关键评估方面

实时视觉理解：模型能否实时处理和响应视觉变化？
全源理解：模型能否在实时视频流中同步整合视觉和音频输入？
上下文理解：模型能否理解视频流中的更广泛上下文？

数据集统计

900 个多样化的视频
4,500 个人工标注的问答对
每个视频在不同时间戳有五个问题

视频类别

任务分类

数据集示例

数据集示例视频

评估流程

要求

Python 3.x
moviepy

数据准备

下载数据集：从 StreamingBench Dataset 获取所有必要文件。
解压缩文件：将下载的文件解压缩并组织在 ./data 目录中。
预处理数据：运行以下命令预处理数据： bash cd ./scripts bash preprocess.sh

模型准备

按照模型指南准备和配置模型。

评估

运行以下命令进行基准测试： sh bash eval.sh

计算指标： sh bash stats.sh

实验结果

不同 MLLMs 在 StreamingBench 上的表现

所有上下文
查询时间前 60 秒的上下文
主要实验与 60 秒视频上下文的比较

不同 MLLMs 在主动输出任务上的表现

"≤ xs" 表示如果实际输出时间在地面真实时间内的 x 秒内，则答案被认为是正确的。 主动输出

引用

bibtex @article{lin2024streaming, title={StreamingBench: Assessing the Gap for MLLMs to Achieve Streaming Video Understanding}, author={Junming Lin and Zheng Fang and Chi Chen and Zihao Wan and Fuwen Luo and Peng Li and Yang Liu and Maosong Sun}, journal={arXiv preprint arXiv:2411.03628}, year={2024} }

搜集汇总

数据集介绍

构建方式

StreamingBench数据集的构建旨在评估多模态大语言模型（MLLMs）在实时流视频理解任务中的表现。该数据集包含了900个多样化的视频，每个视频配有5个不同时间戳的人工标注问答对，总计4500个问答对。这些视频涵盖了多种类别，确保了数据集的广泛性和代表性。通过精心设计的任务分类法，StreamingBench不仅关注模型的实时视觉理解能力，还评估其在同步音频输入和视频流中上下文理解的能力。

使用方法

使用StreamingBench数据集进行评估时，用户首先需从指定链接下载数据集文件，并将其解压缩至指定目录。随后，通过运行预处理脚本对数据进行初步处理。接着，用户需根据提供的模型准备指南，配置和设置自己的模型。完成这些步骤后，用户可以通过运行评估脚本对模型进行测试，并使用统计脚本计算评估结果。这一流程确保了评估过程的标准化和可重复性，从而为MLLMs在实时视频理解任务中的性能提供了可靠的评估依据。

背景与挑战

背景概述

随着多模态大语言模型（MLLMs）的不断进步，其在离线视频理解任务中表现出色，但这些模型在处理实时视频流时仍存在显著差距。人类能够实时处理和响应视频流，捕捉多媒体内容的动态特性，而现有的MLLMs主要依赖于预加载所有帧后再进行查询。为了填补这一空白，StreamingBench数据集应运而生，成为首个全面评估MLLMs在实时视频理解任务中的基准。该数据集由Junming Lin等研究人员于2024年创建，旨在通过900个多样化的视频和4500个人工标注的问答对，评估模型在实时视觉理解、多源同步理解和上下文理解等方面的能力，从而推动多模态大语言模型在实时视频处理领域的应用和发展。

当前挑战

StreamingBench数据集在构建过程中面临多项挑战。首先，实时视频理解要求模型能够在视频流中实时处理和响应视觉变化，这对模型的计算效率和响应速度提出了高要求。其次，多源同步理解任务需要模型能够同时整合视觉和音频输入，确保在实时视频流中准确捕捉和处理多模态信息。此外，上下文理解任务要求模型能够理解视频流中的广泛上下文，这不仅涉及当前帧的信息，还包括前后帧的关联性。这些挑战不仅反映了当前MLLMs在实时视频理解中的局限性，也为未来的研究提供了明确的方向，以提升模型在动态多媒体环境中的适应性和性能。

常用场景

经典使用场景

在多模态大语言模型（MLLMs）的持续进步中，StreamingBench数据集为评估这些模型在实时流媒体视频理解任务中的表现提供了关键工具。该数据集通过900个多样化的视频和4,500个人工标注的问答对，模拟了真实世界的视频流处理场景。其经典使用场景包括评估模型在实时视觉理解、多源同步理解和上下文理解方面的能力，确保模型能够捕捉多媒体内容的动态特性。

解决学术问题

StreamingBench数据集解决了当前MLLMs在处理实时视频流时面临的重大学术问题。传统模型主要依赖于离线视频理解，无法在视频流中实时处理和响应视觉变化。该数据集通过引入全面的流媒体视频理解基准，填补了这一空白，推动了多模态模型在动态环境中的实时处理能力，对提升模型的实用性和响应速度具有重要意义。

实际应用

在实际应用中，StreamingBench数据集为开发能够实时处理视频流的智能系统提供了宝贵的资源。例如，在监控系统中，该数据集可用于训练模型实时识别异常行为；在教育领域，可用于开发实时互动教学工具；在娱乐产业，可提升实时内容推荐系统的准确性。这些应用不仅提高了系统的响应速度，还增强了用户体验。

数据集最近研究