TimeChat-Online-139K

github2025-05-04 更新2025-05-05 收录

下载链接：

https://github.com/yaolinli/TimeChat-Online

下载链接

链接失效反馈

官方服务：

资源简介：

为了灵活的实时交互，我们引入了一个全面的流视频数据集，涵盖回溯、实时视觉感知和未来响应场景。包含11,043个视觉信息丰富的视频（平均时长：11.1分钟），139K个问题-答案对，涵盖回溯追踪、实时视觉感知和前瞻性主动响应。每个视频平均有87.8个场景导向的关键帧（连续帧之间约7.14秒）。

To support flexible real-time interaction, we present a comprehensive streaming video dataset that encompasses three core scenario types: retrospective tracking, real-time visual perception, and prospective active response. The dataset consists of 11,043 visually informative videos with an average duration of 11.1 minutes, along with 139K question-answer pairs that align with the aforementioned scenario categories. On average, each video contains 87.8 scene-oriented key frames, with an approximate interval of 7.14 seconds between consecutive frames.

创建时间：

2025-04-21

原始信息汇总

TimeChat-Online-139K 数据集概述

数据集基本信息

名称: TimeChat-Online-139K
视频数量: 11,043 个视觉信息丰富的视频
视频平均时长: 11.1 分钟
问答对数量: 139K 个
关键帧数量: 平均每个视频包含 87.8 个场景导向的关键帧
关键帧间隔: 约 7.14 秒

数据集特点

场景覆盖:
- 向后追溯 (backward-tracing)
- 实时视觉感知 (real-time visual perception)
- 未来响应 (future-responding)
数据格式:
- 视频帧将以 1 fps 的速率发布
- 包含问答对

引用信息

bibtex @misc{timechatonline, title={TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos}, author={Linli Yao and Yicheng Li and Yuancheng Wei and Lei Li and Shuhuai Ren and Yuanxin Liu and Kun Ouyang and Lean Wang and Shicheng Li and Sida Li and Lingpeng Kong and Qi Liu and Yuanxing Zhang and Xu Sun}, year={2025}, eprint={2504.17343}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2504.17343}, }

许可信息

数据、代码和检查点仅限研究使用
使用时需遵守各原始数据集和模型的许可协议

搜集汇总

数据集介绍

构建方式

在视频理解领域，TimeChat-Online-139K数据集的构建采用了多模态信息融合的策略。该数据集精选了11,043段平均时长达11.1分钟的视频素材，通过专业标注团队构建了涵盖回溯追踪、实时视觉感知和前瞻性响应三大场景的13.9万组问答对。特别值得注意的是，每段视频平均标注了87.8个场景关键帧，帧间隔精确控制在7.14秒，这种时序密集标注方式有效捕捉了视频流的动态演变特征。

特点

该数据集最显著的特点是实现了视频内容与语言理解的深度耦合。其问答对设计突破了传统视频描述的局限，不仅包含对历史画面的回溯分析，还涉及实时场景的即时解读和未来事件的主动预测。视频素材经过严格筛选，确保每段内容都具有丰富的视觉信息量，平均每分钟包含7.9个关键场景转换点，为模型训练提供了高质量的时空连续性数据。

使用方法

使用该数据集时，研究者可采用端到端的训练范式进行视频语言模型的开发。数据集提供的1fps视频帧序列与多层次问答标注，支持从基础特征提取到高级语义理解的完整训练流程。特别建议结合差分令牌丢弃(DTD)技术进行预处理，可有效降低80%以上的冗余视觉令牌，显著提升模型处理长视频流的效率。数据集的场景化标注体系也为评估模型在实时视频理解任务中的表现提供了标准化测试基准。

背景与挑战

背景概述

TimeChat-Online-139K数据集由Linli Yao等研究人员于2025年提出，旨在解决流媒体视频理解中的视觉冗余问题。该数据集的核心创新在于其差分令牌丢弃（DTD）模块，能够从整体视频角度自适应地减少视频令牌，同时保留有意义的时间变化。数据集包含11,043个视觉信息丰富的视频，平均时长为11.1分钟，以及139K个涵盖回溯追踪、实时视觉感知和前瞻性主动响应的问答对。这一数据集的推出为视频理解领域提供了新的研究工具，尤其在处理长视频和实时流媒体数据方面展现出显著优势。

当前挑战

TimeChat-Online-139K数据集面临的挑战主要集中在两个方面：其一，流媒体视频中视觉冗余的高效识别与处理，如何在保证理解精度的同时最大化令牌减少率；其二，数据集的构建过程中，如何准确标注长视频中的关键帧和场景转换，确保问答对能够全面覆盖视频内容的时空维度。此外，实时处理流媒体数据对计算资源的需求也是一个不容忽视的挑战。

常用场景

经典使用场景

在流媒体视频理解领域，TimeChat-Online-139K数据集为研究者提供了一个丰富的实验平台。该数据集包含11,043段视觉信息丰富的视频，平均时长达到11.1分钟，并配有139K个问答对，覆盖了回溯追踪、实时视觉感知和前瞻性主动响应等多种场景。这些数据特别适合用于测试和优化视频语言模型在处理长时间序列视频时的性能表现，尤其是在动态令牌修剪和关键帧识别等关键技术上的效果验证。

解决学术问题

TimeChat-Online-139K数据集有效解决了视频理解领域中的两个核心难题：长时间视频序列的信息冗余问题，以及实时视频流的高效处理需求。通过引入差分令牌丢弃（DTD）模块，该数据集展示了在不损失关键信息的前提下，可减少80%以上的视觉令牌。这一突破为视频压缩、实时分析和存储优化等研究方向提供了重要参考，显著提升了视频语言模型在StreamingBench和OVO-Bench等基准测试中的表现。

衍生相关工作

基于TimeChat-Online-139K数据集，研究者们已经展开了一系列创新工作。在模型架构方面，衍生出了结合Qwen2.5-VL-7B的零样本集成方案；在评估体系上，推动了StreamingBench和OVO-Bench等测试基准的完善；在应用层面，则催生了面向长视频理解的MLVU和VideoMME等新型评测任务。这些工作共同推动了视频语言模型在效率和精度上的双重提升，为后续研究奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集