Streamo-Instruct-465K
收藏arXiv2025-12-25 更新2025-12-26 收录
下载链接:
https://huggingface.co/datasets/maifoundations/Streamo-Instruct-465K
下载链接
链接失效反馈官方服务:
资源简介:
Streamo-Instruct-465K是由香港浸会大学与腾讯优图实验室联合构建的大规模流媒体视频指令跟随数据集,包含46.58万条多任务标注样本。该数据集覆盖实时旁白、动作理解、事件描述等五大核心任务,视频平均时长30-240秒,数据源自ActivityNet等开源视频库并经过统一标准化标注。通过预定义多粒度响应标签和时序边界标注,该数据集解决了流媒体场景下模型决策与内容生成的协同训练问题,为构建实时视频交互助手提供了关键训练资源。
Streamo-Instruct-465K is a large-scale streaming video instruction-following dataset jointly constructed by Hong Kong Baptist University and Tencent YouTu Lab, containing 465,800 multi-task annotated samples. This dataset covers five core tasks including real-time narration, action understanding, event description and others, with an average video duration ranging from 30 to 240 seconds. The data is sourced from open-source video repositories such as ActivityNet and underwent unified standardized annotation. By adopting predefined multi-granularity response labels and temporal boundary annotations, this dataset solves the collaborative training problem of model decision-making and content generation in streaming scenarios, providing key training resources for building real-time video interaction assistants.
提供机构:
香港浸会大学, 腾讯优图实验室
创建时间:
2025-12-25
搜集汇总
数据集介绍
构建方式
在流媒体视频理解领域,构建高质量数据集需克服时序标注的一致性与多任务监督的复杂性。Streamo-Instruct-465K数据集通过整合多个开源视频资源,采用统一的标注协议,系统性地生成了涵盖实时叙述、事件描述、动作标注、时序定位及时间敏感问答的多样化任务样本。其构建过程首先将视频分割为连续片段,并利用先进视觉语言模型生成细粒度描述,再通过后处理流程消除冗余并确保时序连贯性,最终形成包含46.5万条样本的大规模指令遵循数据集。
特点
该数据集的核心特征在于其多任务统一标注框架与精细的时序响应粒度设计。它不仅覆盖了流媒体视频中常见的五大任务类型,还为每个样本标注了清晰的时间边界与响应状态,包括静默、待命与响应三种决策标记。这种结构使得模型能够学习在连续视频流中动态判断响应时机,同时处理异构任务指令。数据集的视频时长分布广泛,从短片段到超长视频均有涵盖,增强了模型对不同时间尺度上下文的适应能力。
使用方法
Streamo-Instruct-465K数据集主要用于训练端到端的流媒体视频大语言模型,以提升其在实时交互场景中的指令遵循与时序推理能力。使用时,需将视频流组织为多轮对话格式,并集成静默、待命与响应三种状态标记至训练序列中。通过结合焦点损失与频率平衡机制,模型可有效学习在类别不平衡的流数据中做出精确的帧级决策。该数据集支持模型在统一框架下进行多任务训练,使其能够同时处理叙述生成、事件定位与动态问答等复杂指令,最终应用于构建实时流媒体视频助手。
背景与挑战
背景概述
随着视频大语言模型在离线视频理解任务中取得显著进展,其在处理完整预录制视频方面展现出卓越能力,然而实时交互式AI助手的需求截然不同,必须应对连续无界的视频流并响应动态指令。为此,香港浸会大学与腾讯优图实验室的研究团队于2025年提出了Streamo-Instruct-465K数据集,旨在解决流式视频理解中的核心研究问题。该数据集作为大规模指令跟随数据集,专门为流式视频理解与交互而设计,覆盖实时叙述、动作理解、事件描述、时序事件定位及时间敏感问答等多类任务,通过统一的时间标注与多任务监督,为模型提供异构流式任务的协同训练支持,显著推动了离线视频感知模型向实时多模态助手的跨越。
当前挑战
在流式视频理解领域,核心挑战在于模型需在连续无界的数据流中维持上下文连贯性,并管理跨多任务的变响应时序与粒度,这要求模型具备帧级决策与长时程时序推理能力。现有离线模型因设计为单次处理完整视频片段,难以满足流式场景的实时交互需求。在数据集构建过程中,研究人员面临标注标准不一致的难题,现有数据集常融合异构来源且标注规范不统一,导致时序对齐与多任务响应行为的学习困难。此外,构建大规模高质量指令跟随数据需协调多样时间上下文与任务监督,确保标注的时序一致性与响应粒度标准化,这对数据集的规模与质量提出了较高要求。
常用场景
经典使用场景
在实时流媒体视频理解领域,Streamo-Instruct-465K数据集被广泛应用于训练端到端的流式视频大语言模型。该数据集通过多轮对话结构模拟连续视频流,支持模型在帧级别进行响应决策,典型场景包括对动态视频内容进行实时解说、动作识别与事件描述。例如,在调酒教学视频中,模型能够逐秒描述操作步骤,并在特定事件结束时生成摘要,实现了从离线视频分析到在线交互助手的无缝过渡。
实际应用
在实际应用层面,基于该数据集训练的模型可部署于智能监控、实时教学辅助与交互式娱乐系统。例如,在安防场景中,模型能够持续分析监控视频流,在检测到异常行为时立即生成警报描述;在在线教育平台,则可对实验操作视频进行实时旁白,辅助学习者理解关键步骤。这些应用体现了模型在低延迟要求下对多模态流数据的即时解析与响应能力。
衍生相关工作
该数据集的发布催生了一系列流式视频理解的创新研究,例如Streamo-Bench评估基准的构建,以及基于端到端训练框架的模型优化工作。相关研究扩展了多任务指令跟随的评估维度,涵盖时序定位、密集描述与时间敏感问答等场景。同时,数据集的设计理念启发了对离线模型在线化转换方法的探索,如通过决策头集成与焦点损失函数优化,提升了模型在流式环境中的时序推理鲁棒性。
以上内容由遇见数据集搜集并总结生成



