TimeChat-Online-139K

Hugging Face2025-05-08 更新2025-05-09 收录

下载链接：

https://huggingface.co/datasets/yaolily/TimeChat-Online-139K

下载链接

链接失效反馈

官方服务：

资源简介：

TimeChat-Online-139K是一个包含139K个视频对话对的流媒体视频问答数据集，旨在支持灵活的实时交互，适用于回溯、实时视觉感知和未来响应的场景。

创建时间：

2025-05-08

原始信息汇总

TimeChat-Online-139K 数据集概述

📜 基本信息

名称: TimeChat-Online-139K
许可证: 其他（需同意自定义研究专用许可证）
语言: 英语 (en)
任务类别: 视频问答 (video-question-answering)
标注创建方式: 机器生成 (machine-generated)
描述: 包含139K视频-对话对的流式视频问答数据集

📊 数据集统计

视频数量: 11,043个（平均时长11.1分钟）
问答对数量: 139K
关键帧统计: 平均每视频87.8个场景导向关键帧（间隔约7.14秒）

🎥 数据来源

包含13个公共视频数据集的11,043个采样视频：

数据集	视频数量	数据集	视频数量	数据集	视频数量
COIN	151	QV-Highlights	1778	ActivityNet	12
HD-VILA	695	YouCook2	710	TVSum	10
ViTT	2000	QuerYD	566	YouMakeup	1801
VideoIC	2649	Movie101	202	HiREST	469

⚠️ 使用限制

仅限非商业研究/教育用途
禁止重新分发或托管
必须引用数据集

📑 引用格式

bibtex @misc{timechatonline, title={TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos}, author={Linli Yao et al.}, year={2025}, eprint={2504.17343}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2504.17343}, }

🔗 相关资源

项目页: https://timechat-online.github.io/
论文: https://arxiv.org/abs/2504.17343
GitHub: https://github.com/yaolinli/TimeChat-Online
模型检查点: https://huggingface.co/wyccccc/TimeChatOnline-7B

搜集汇总

数据集介绍

构建方式

TimeChat-Online-139K数据集通过整合13个公开视频数据集构建而成，涵盖11,043个视觉信息丰富的视频，平均时长达11.1分钟。采用1fps帧率提取关键帧，确保数据的高效性与代表性。通过机器生成的方式，为每个视频配对139K个问答对，覆盖回溯追踪、实时视觉感知及前瞻性响应三大场景。数据来源包括COIN、HD-VILA、ViTT等知名视频数据集，并严格遵循原始数据集的许可协议。

特点

该数据集以其多样化的视频来源和丰富的问答对著称，平均每个视频包含87.8个场景导向的关键帧，帧间隔约7.14秒，确保了时序信息的连贯性。问答对设计涵盖多模态任务，特别注重实时交互场景下的视觉与语言关联分析。数据集还提供详细的视频元数据及原始论文引用，为研究者提供了全面的背景支持。

使用方法

TimeChat-Online-139K适用于视频问答、实时视觉感知等研究领域。使用时需遵循非商业研究许可协议，禁止重新分发或商用。数据以.tar.gz格式存储，包含提取的视频帧及对应问答对。建议结合配套的7B模型检查点进行实验，并引用相关论文以符合学术规范。数据加载可通过HuggingFace平台实现，具体操作详见GitHub项目页面的技术文档。

背景与挑战

背景概述

TimeChat-Online-139K数据集由Linli Yao等人于2025年提出，旨在推动流媒体视频问答领域的研究。该数据集汇集了来自13个公开视频数据集的11,043个视频，涵盖了教学视频、电影片段、烹饪教程等多种类型，平均时长达到11.1分钟。其核心研究问题聚焦于视频流实时交互中的三大场景：回溯追踪、实时视觉感知和前瞻性主动响应。通过构建包含13.9万视频-对话对的大规模数据集，研究团队为多模态学习、视频理解和时序推理等前沿方向提供了重要基准。这一资源的发布显著提升了流媒体视频中时序依赖关系和语义连贯性建模的研究水平。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题方面，流媒体视频问答需要解决长时序依赖建模、实时视觉信息提取和多轮对话连贯性保持等复杂任务，这对模型的时空推理能力提出了极高要求；数据构建方面，研究团队需要处理来自不同源数据集的异构视频格式与元数据，在保证1fps关键帧提取精度的同时，还需严格遵守各源数据集的版权协议。此外，人工标注大规模视频问答对的成本压力促使团队采用机器生成方法，这又带来了质量控制和语义一致性的新挑战。

常用场景

经典使用场景

在视频理解与交互领域，TimeChat-Online-139K数据集因其丰富的视频-对话对成为研究实时视觉感知与动态交互的基准工具。该数据集通过11,043段平均时长11分钟的视频，配合139K个涵盖回溯追踪、实时感知与前瞻应答的问答对，为多模态学习提供了密集的时空标注。研究者常利用其7.14秒间隔的关键帧序列，训练模型理解长视频中的时序逻辑与场景关联。

衍生相关工作

基于该数据集衍生的经典工作包括TimeChat-Online提出的视觉令牌冗余压缩算法，通过分析80%冗余帧优化了流式视频处理效率。后续研究如StreamVQA扩展了其问答范式，引入跨视频片段推理任务。另有团队结合HiREST层级检索框架，开发了支持多粒度时刻定位的混合模型，推动视频摘要生成技术的迭代。

数据集最近研究