TimeChat-Online-139K

Name: TimeChat-Online-139K
Creator: 北京大学, 华南理工大学, 香港大学, 快手科技
Published: 2025-04-24 15:59:46
License: 暂无描述

arXiv2025-04-24 更新2025-04-26 收录

下载链接：

https://timechat-online.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

TimeChat-Online-139K是一个为流式视频问答（Streaming VideoQA）任务设计的综合数据集，包含多样的交互模式，包括回溯、当前感知和未来响应等场景。该数据集由平均长度为11.1分钟的长视频组成，并使用GPT-4o对视频进行标注，形成包含各种视频问答对的数据集。数据集的创建旨在解决流式视频问答中存在的挑战，如长视频的高冗余问题，以及实时交互的需求。通过引入差异令牌丢弃（DTD）机制，TimeChat-Online-139K能够有效减少视频令牌的数量，提高视频问答的效率。该数据集的创建和应用对于未来视频语言模型的开发具有重要意义。

TimeChat-Online-139K is a comprehensive dataset designed for the Streaming Video Question Answering (Streaming VideoQA) task, featuring diverse interaction scenarios including backward browsing, current perception, and future response. It consists of long-form videos with an average duration of 11.1 minutes, and uses GPT-4o to annotate the videos, forming a dataset containing various video question-answer pairs. This dataset was created to address the core challenges in Streaming VideoQA, such as the high redundancy issue in long videos and the demand for real-time interaction. By introducing the Differentiable Token Dropping (DTD) mechanism, TimeChat-Online-139K can effectively reduce the number of video tokens and improve the efficiency of video QA. The development and application of this dataset hold significant importance for the future development of video-language models.

提供机构：

北京大学, 华南理工大学, 香港大学, 快手科技

创建时间：

2025-04-24

搜集汇总

数据集介绍

构建方式

TimeChat-Online-139K数据集的构建过程体现了对视频流理解的深度需求。研究团队从12个公开数据源中精选了11,043段视频，平均时长11.1分钟，通过PySceneDetect进行场景分割并利用DINO-v2算法去除冗余帧。基于GPT-4o生成的关键帧描述平均达176词，最终构建了包含13.9万问答对的多样化数据集，涵盖回溯追踪、实时感知和前瞻响应等交互模式。特别设计了未回答样本以训练模型的主动响应能力，并通过场景过渡检测实现自然触发机制。

特点

该数据集最显著的特点是揭示了视频流中80%视觉标记的自然冗余性。通过差分标记丢弃(DTD)机制，在保持98%原始精度的同时实现了82.8%的标记压缩，响应延迟降低1.76倍。数据集包含长时程视频理解任务，支持30-60分钟视频分析，在Video-MME长视频子集上准确率提升5.7个百分点。独特的场景过渡触发设计使模型能自动识别关键时间点，实现前瞻性响应，突破了传统视频语言模型在实时交互中的局限性。

使用方法

使用时建议以1fps采样率处理视频流，采用特征级标记丢弃(推荐阈值π=0.25)可保留约15.4%的关键标记。对于长视频任务，DTD模块可直接集成至Qwen2.5VL等模型，无需额外训练即可提升效率。前瞻响应功能通过监测标记丢弃率曲线中的波谷(场景过渡点)自动触发，建议配合FIFO记忆库保存最近6K精简标记。数据集特别适用于训练具有实时交互能力的视频语言模型，可通过组合离线视频理解数据集增强模型鲁棒性。

背景与挑战

背景概述

TimeChat-Online-139K数据集由北京大学、华南理工大学、香港大学和快手技术等机构的研究团队于2025年推出，旨在解决流媒体视频实时理解的核心挑战。该数据集基于人类视觉感知中的'变化盲视'现象，创新性地提出了差分令牌丢弃(DTD)机制，能够在不依赖用户查询指导的情况下消除82.8%的冗余视频令牌。作为首个专为流媒体视频问答设计的综合性数据集，它包含了13.9万组涵盖回溯追踪、实时感知和前瞻响应等多种交互模式的标注样本，平均视频时长达11.1分钟，显著推动了视频大语言模型(VideoLLMs)在实时交互场景中的应用。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决流媒体视频中长时高冗余上下文处理的难题，包括1-10fps连续帧间的背景重复性以及无限时长视频的时空语境维护；在构建过程中，需要克服动态场景标注的复杂性，包括精准识别视频场景转换边界、处理未来响应问题的负样本构建，以及确保多模态指令数据的时间一致性。特别地，DTD模块的研发需要平衡令牌丢弃率与语义保持的微妙关系，在84.6%的极端丢弃率下仍需维持98%的原始准确率，这对视觉令牌的空间-时间位置保留机制提出了严苛要求。

常用场景

经典使用场景

TimeChat-Online-139K数据集在流媒体视频理解领域具有广泛的应用场景，尤其在实时视频问答系统中表现突出。该数据集通过其独特的差分令牌丢弃（DTD）机制，能够高效处理高帧率视频流中的冗余信息，适用于需要即时响应的交互式视频分析任务。在直播监控、智能家居机器人等实时视频处理场景中，该数据集能够支持模型在保持高准确率的同时显著降低计算延迟。

衍生相关工作

该数据集催生了多项创新性研究工作，包括VideoLLM-online提出的动态内存银行架构、Flash-VStream开发的分层压缩方法，以及Dispider设计的解耦感知-决策-反应范式。其DTD机制更被Qwen2.5VL-7B等主流VideoLLMs集成，在VideoMME长视频子集上实现84.6%令牌削减下的5.7分精度提升。相关技术路线已形成以时空冗余消除为核心的新兴研究方向。

数据集最近研究