Stream-IT

Name: Stream-IT
Creator: 苹果公司, 复旦大学
Published: 2025-05-09 01:57:40
License: 暂无描述

arXiv2025-05-09 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.05467v1

下载链接

链接失效反馈

官方服务：

资源简介：

Stream-IT是一个大规模的数据集，专为流式视频理解设计，具有交错的视频文本序列和多样的指令格式。数据集由从大型视频字幕语料库中拼接语义相关的短片段构成，并生成了模拟真实、时效性强的用户交互的多轮问答序列。此外，Stream-IT包含来自公共数据集的广泛任务格式，从而增强了任务多样性和模型在流式环境中的泛化能力。

Stream-IT is a large-scale dataset designed specifically for streaming video understanding, featuring interleaved video-text sequences and diverse instruction formats. It is constructed by concatenating semantically related short segments from large-scale video subtitle corpora, and generates multi-turn question-answer sequences that simulate realistic, time-sensitive user interactions. Furthermore, Stream-IT incorporates a wide range of task formats from public datasets, which enhances task diversity and the generalization capability of models in streaming scenarios.

提供机构：

苹果公司, 复旦大学

创建时间：

2025-05-09

原始信息汇总

数据集概述

基本信息

标题: StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant
提交日期: 2025年5月8日
作者: Haibo Wang, Bo Feng, Zhengfeng Lai, Mingze Xu, Shiyu Li, Weifeng Ge, Afshin Dehghan, Meng Cao, Ping Huang
arXiv标识符: arXiv:2505.05467v1
DOI: 10.48550/arXiv.2505.05467

研究领域

主要领域: 计算机视觉与模式识别 (Computer Vision and Pattern Recognition, cs.CV)
相关领域: 人工智能 (Artificial Intelligence, cs.AI), 计算与语言 (Computation and Language, cs.CL)

摘要

StreamBridge是一个简单而有效的框架，可将离线的视频大型语言模型无缝转换为支持流式处理的模型。它解决了将现有模型应用于在线场景时的两个基本挑战：

多轮实时理解能力有限。
缺乏主动响应机制。

具体而言，StreamBridge包含：

结合轮次衰减压缩策略的内存缓冲区，支持长上下文多轮交互。
一个解耦的轻量级激活模型，可轻松集成到现有视频大型语言模型中，实现连续主动响应。

此外，研究团队构建了Stream-IT，一个专为流式视频理解设计的大规模数据集，包含交错的视频-文本序列和多样化的指令格式。实验表明，StreamBridge显著提升了离线视频大型语言模型在流式理解任务中的能力，甚至优于GPT-4o和Gemini 1.5 Pro等专有模型。

数据集

数据集名称: Stream-IT
特点:
- 专为流式视频理解设计。
- 包含交错的视频-文本序列。
- 提供多样化的指令格式。

性能表现

在流式理解任务中显著优于离线视频大型语言模型。
表现优于GPT-4o和Gemini 1.5 Pro等专有模型。
在标准视频理解基准测试中达到竞争性或更优性能。

相关链接

PDF链接: http://arxiv.org/pdf/2505.05467v1
HTML链接: http://arxiv.org/html/2505.05467v1

搜集汇总

数据集介绍

构建方式

Stream-IT数据集通过整合多个公开视频数据集（如ActivityNet、Shot2Story、YouCook2等）构建而成，特别针对流媒体场景设计。数据集的构建过程包括从大规模视频-字幕语料库中筛选语义相关的短视频片段，并通过GPT-4o生成多轮问答序列，模拟真实的时间敏感用户交互。此外，数据集还采用了随机QA丢弃和QA间隔移位等增强策略，以提高模型的鲁棒性和多样性。

特点

Stream-IT数据集的特点在于其多轮实时理解和主动响应能力。数据集包含交错排列的视频-文本序列，支持长上下文多轮对话和主动响应生成。其任务类型多样，涵盖对象感知、动作识别、空间意识、因果推理等8种任务，显著提升了模型在流媒体场景下的泛化能力。数据集的平均视频时长超过150秒，充分模拟了真实流媒体环境中的长时间交互需求。

使用方法

Stream-IT数据集主要用于训练和评估视频大语言模型（Video-LLMs）在流媒体场景下的表现。使用时，模型需处理连续的视频帧输入，并结合历史上下文生成实时响应。数据集支持两种主要格式：多轮交错视频-文本对话和主动响应生成。研究人员可通过微调现有Video-LLMs（如LLaVA-OV、Qwen2-VL等）在Stream-IT上，显著提升模型在流媒体任务中的表现，同时保持其在传统视频理解任务中的性能。

背景与挑战

背景概述

Stream-IT数据集由Apple与复旦大学的研究团队于2025年提出，旨在解决视频大语言模型（Video-LLMs）在流媒体场景下的实时理解与主动响应问题。该数据集聚焦多轮交错视频-文本序列，填补了传统单轮问答数据集在长时态、交互式视频理解领域的空白。其核心创新在于模拟真实场景中的时序敏感交互，通过整合ActivityNet、YouCook2等12个跨任务视频资源，构建了包含26万样本的大规模指令微调数据集，显著提升了模型在机器人、自动驾驶等实时应用中的表现。

当前挑战

Stream-IT需应对双重挑战：在领域问题层面，需突破现有模型对完整预录视频的依赖，解决流媒体环境下多轮实时理解（如动态上下文维护）与无触发主动响应（如自主决策应答时机）的难题；在构建层面，面临长视频语义连贯性保持（通过相似性驱动的片段拼接策略）、多样化指令生成（采用GPT-4o合成8类推理任务QA对）以及时序标注稀疏性（通过动态P%帧标记机制）等技术瓶颈。此外，平衡历史信息压缩与实时性需求的round-decayed算法设计也是关键挑战。

常用场景

经典使用场景

Stream-IT数据集专为流媒体视频理解任务而设计，特别适用于多轮实时交互和主动响应场景。该数据集通过交织的视频-文本序列和多样化的指令格式，为模型提供了丰富的上下文信息，使其能够在动态环境中进行连续的视频内容理解和响应。经典使用场景包括实时视频问答、多轮对话系统以及需要主动监控和反馈的动态环境应用。

衍生相关工作

Stream-IT数据集催生了一系列相关研究工作，特别是在流媒体视频理解领域。例如，基于该数据集开发的StreamBridge框架成功将离线Video-LLMs转化为支持流媒体的模型。此外，该数据集还启发了OVO-Bench和Streaming-Bench等评估基准的创建，为流媒体视频理解任务的标准化评估提供了重要基础。这些衍生工作共同推动了视频大语言模型在实时交互场景中的应用发展。

数据集最近研究