StreamingBench

Hugging Face2024-10-13 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/mjuicem/StreamingBench

下载链接

链接失效反馈

官方服务：

资源简介：

StreamingBench数据集是一个用于问答任务的数据集，包含多种特征如问题ID、任务类型、问题、时间戳、答案等。数据集分为三个子集：Real_Time_Visual_Understanding、Omni_Source_Understanding和Proactive_Output，分别包含2500、1000和250个样本。数据集大小为1.37GB，下载大小为836.93MB。

The StreamingBench dataset is a question answering dataset that includes multiple features such as question ID, task type, question, timestamp, answer, etc. It is divided into three subsets: Real_Time_Visual_Understanding, Omni_Source_Understanding, and Proactive_Output, which contain 2500, 1000, and 250 samples respectively. The total size of the dataset is 1.37 GB, and its download size is 836.93 MB.

创建时间：

2024-10-11

原始信息汇总

StreamingBench 数据集概述

任务类别

问答（Question-Answering）

语言

英语（English）

数据集规模

1K < n < 10K

数据集信息

配置名称

StreamingBench

特征

question_id: 字符串类型
task_type: 字符串类型
question: 字符串类型
time_stamp: 字符串类型
answer: 字符串类型
options: 字符串类型
clue_start_time: 字符串类型
clue_end_time: 字符串类型
frames_required: 字符串类型
temporal_clue_type: 字符串类型

数据集分割

Real_Time_Visual_Understanding:
- 样本数量: 2500
- 字节数: 1261703785
Omni_Source_Understanding:
- 样本数量: 1000
- 字节数: 57732412
Proactive_Output:
- 样本数量: 250
- 字节数: 49925732

数据集大小

下载大小: 836927248 字节
数据集大小: 1369361929 字节

配置

配置名称

StreamingBench

数据文件

Real_Time_Visual_Understanding: StreamingBench/Real_Time_Visual_Understanding.csv
Omni_Source_Understanding: StreamingBench/Omni_Source_Understanding.csv
Proactive_Output: StreamingBench/Proactive_Output.csv

搜集汇总

数据集介绍

构建方式

StreamingBench数据集的构建旨在评估多模态大语言模型（MLLMs）在实时流媒体视频理解任务中的表现。该数据集通过收集900个多样化的视频，并在此基础上生成了4,500个人工标注的问答对。每个视频在不同时间点设置了五个问题，涵盖了实时视觉理解、全源理解和上下文理解等多个关键评估维度。数据集的构建过程严格遵循了多模态数据处理的标准，确保了数据的多样性和代表性。

特点

StreamingBench数据集的特点在于其专注于实时流媒体视频理解任务，涵盖了多种视频类别和任务分类。数据集中的每个问答对均包含问题ID、任务类型、问题内容、时间戳、答案、选项、所需帧数以及时间线索类型等详细信息。这种多维度的数据设计使得该数据集能够全面评估MLLMs在处理动态视频内容时的能力。此外，数据集的规模适中，包含2500个实时视觉理解任务、250个序列问答任务、500个上下文理解任务和1000个全源理解任务，确保了评估的广泛性和深度。

使用方法

StreamingBench数据集的使用方法主要围绕多模态大语言模型的评估展开。研究人员可以通过加载数据集中的不同配置文件，如实时视觉理解、序列问答、上下文理解和全源理解等，来测试模型在各类任务中的表现。每个配置文件均以CSV格式存储，便于数据处理和分析。使用该数据集时，研究人员需注意时间戳和所需帧数的信息，以确保模型能够准确处理实时视频流。此外，数据集还提供了主动输出任务的配置文件，用于评估模型在预测输出时间方面的准确性。通过该数据集，研究人员可以全面评估MLLMs在流媒体视频理解任务中的性能，并推动相关领域的研究进展。

背景与挑战

背景概述

StreamingBench数据集由Junming Lin等人于2024年提出，旨在评估多模态大语言模型（MLLMs）在实时流媒体视频理解任务中的表现。该数据集由清华大学等机构的研究团队开发，包含900个多样化视频和4500个人工标注的问答对，涵盖了实时视觉理解、全源理解和上下文理解等多个关键评估维度。StreamingBench的推出填补了现有MLLMs在离线视频理解与人类实时视频处理能力之间的鸿沟，为相关领域的研究提供了重要的基准测试工具。

当前挑战

StreamingBench数据集在解决实时流媒体视频理解问题时面临多重挑战。首先，模型需要在动态变化的视频流中实时捕捉视觉和音频信息，这对计算效率和响应速度提出了极高要求。其次，数据集构建过程中，如何确保问答对的多样性和准确性，以及如何精确标注时间戳和上下文信息，都是技术上的难点。此外，模型在处理长视频时，如何有效利用历史上下文信息以避免信息丢失，也是亟待解决的问题。这些挑战共同构成了StreamingBench在推动MLLMs技术进步中的核心难题。

常用场景

经典使用场景

StreamingBench数据集在评估多模态大语言模型（MLLMs）在实时流媒体视频理解任务中的表现方面具有经典应用。通过提供多样化的视频内容和人类标注的问答对，该数据集能够模拟真实场景中的视频流处理需求，帮助研究者测试模型在实时视觉理解、上下文理解以及多源信息整合等方面的能力。

解决学术问题

StreamingBench数据集解决了多模态大语言模型在实时视频理解中的关键学术问题。传统模型通常依赖于离线视频处理，无法有效应对实时流媒体的动态变化。该数据集通过引入实时视觉理解、上下文理解等任务，填补了这一研究空白，推动了模型在实时视频处理领域的发展，并为未来研究提供了重要的基准。

衍生相关工作

StreamingBench数据集的发布催生了一系列相关研究，特别是在多模态大语言模型的实时视频理解领域。基于该数据集的研究工作不仅推动了模型性能的提升，还促进了新算法的开发，如实时视觉理解框架、多源信息融合技术等。这些工作进一步拓展了多模态模型在视频处理中的应用范围，为学术界和工业界提供了宝贵的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集