TimeLens-100K

Hugging Face2025-12-19 更新2025-12-20 收录

下载链接：

https://huggingface.co/datasets/TencentARC/TimeLens-100K

下载链接

链接失效反馈

官方服务：

资源简介：

TimeLens-100K是一个大规模、多样化且高质量的视频时间定位训练数据集。该数据集在我们的论文《TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs》中提出，并用于训练TimeLens模型。标注过程使用了由Gemini-2.5-Pro驱动的自动化流程。数据集统计信息包括：总视频数约20K，总标注数约100K，平均每个视频有5个标注。视频来源多样，包括DiDeMo、QuerYD、HiREST、CosMo-Cap和InternVid-VTime等数据集。

创建时间：

2025-12-14

原始信息汇总

TimeLens-100K 数据集概述

数据集基本信息

名称：TimeLens-100K
许可证：bsd-3-clause (https://github.com/TencentARC/TimeLens/blob/main/LICENSE)
主要语言：英语 (en)
任务类别：视频文本到文本 (video-text-to-text)
数据规模：10K<n<100K

数据集描述

TimeLens-100K 是一个用于视频时序定位的大规模、多样化、高质量训练数据集。该数据集在论文《TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs》中提出，并用于训练 TimeLens 模型。其标注过程采用由 Gemini-2.5-Pro 驱动的自动化流程完成。

数据集统计

视频总数：约 20K
标注总数：约 100K
平均每视频标注数：约 5
视频来源：视频采样自多个数据集：
- DiDeMo：https://github.com/LisaAnne/LocalizingMoments/
- QuerYD：https://www.robots.ox.ac.uk/~vgg/data/queryd/
- HiREST：https://github.com/j-min/HiREST
- CosMo-Cap：https://github.com/showlab/cosmo
- InternVid-VTime：https://github.com/OpenGVLab/InternVideo/tree/main/Data/InternVid

引用

如需在研究中引用此数据集，请使用以下 BibTeX 条目： bibtex @article{zhang2025timelens, title={TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs}, author={Zhang, Jun and Wang, Teng and Ge, Yuying and Ge, Yixiao and Li, Xinhao and Shan, Ying and Wang, Limin}, journal={arXiv preprint arXiv:2512.14698}, year={2025} }

搜集汇总

数据集介绍

构建方式

在视频时序定位研究领域，构建大规模、高质量的训练数据是推动模型性能提升的关键。TimeLens-100K数据集的构建采用了自动化标注流程，其核心是利用Gemini-2.5-Pro多模态大模型对来自多个公开视频数据源的约两万个视频进行智能解析与标注。该流程从DiDeMo、QuerYD、HiREST、CosMo-Cap及InternVid-VTime等数据集中采样视频，通过大模型自动生成与视频内容相关的时序描述，最终形成了包含约十万条标注的大规模数据集，平均每个视频对应五条标注，确保了数据的丰富性与多样性。

特点

TimeLens-100K数据集以其规模宏大、来源多样与标注质量高而著称。数据集包含约十万条标注，覆盖了约两万个视频，为模型训练提供了充足的样本支持。其视频源横跨多个具有不同场景与任务的公开数据集，如DiDeMo的动作定位、QuerYD的密集描述等，这种多样性有效增强了数据集的代表性和泛化能力。自动化标注流程在保证效率的同时，也致力于生成与视频时序内容紧密对齐的高质量描述，为视频时序定位任务奠定了坚实的数据基础。

使用方法

对于希望利用该数据集进行视频时序定位模型研发的研究者，其使用流程清晰明确。用户需首先访问项目在GitHub上开放的代码仓库，其中详细提供了数据下载与训练的具体操作指南。数据集主要用于训练TimeLens系列模型，支持视频文本到文本的任务范畴。研究者在遵循相关开源许可的前提下，可按照指南准备数据环境，并将其整合到自身的模型训练框架中，以验证新方法或复现论文中的实验结果。

背景与挑战

背景概述

视频时序定位是计算机视觉与多媒体分析领域的一项核心任务，旨在根据自然语言查询从视频中精准定位并检索出对应的时间片段。随着多模态大语言模型的兴起，该领域对大规模、高质量标注数据的需求日益迫切。TimeLens-100K数据集由腾讯ARC实验室于2025年提出，其核心研究问题在于解决现有视频时序定位数据在规模、多样性与标注质量上的局限。该数据集整合了来自DiDeMo、QuerYD、HiREST等多个权威视频数据源的约两万条视频，并利用Gemini-2.5-Pro驱动的自动化流程生成了约十万条高质量标注，显著提升了模型在复杂视频场景下的时序理解与定位能力，为多模态大模型在视频理解方向的应用奠定了坚实的数据基础。

当前挑战

视频时序定位任务本身面临诸多挑战，包括对视频中复杂时序关系的精确建模、对自然语言查询中细粒度语义的理解，以及在长视频中处理大量冗余信息与遮挡、光照变化等视觉干扰。TimeLens-100K在构建过程中亦需应对多重困难：其一，从多个异构视频源中筛选并整合具有时序多样性与内容代表性的视频片段，确保数据分布的广泛性与平衡性；其二，设计并实施高效的自动化标注流程，在保证标注质量与一致性的同时，处理视频中动作的连续性、边界模糊性以及描述的主观性；其三，验证并校正自动化标注结果，以克服大语言模型可能产生的幻觉或偏差，确保时序边界与文本描述的高度对齐。

常用场景

经典使用场景

在视频时序定位研究领域，TimeLens-100K数据集为训练多模态大语言模型提供了关键支撑。该数据集通过自动化标注流程，从多个公开视频源中整合了约十万条高质量时序标注，覆盖了丰富的视觉场景与语言描述。其经典使用场景在于，研究者可利用该数据集训练模型，使其能够精准理解自然语言查询，并在视频流中定位出对应的起始与结束时间点，从而实现对视频内容的细粒度语义理解与时间边界识别。

解决学术问题

TimeLens-100K的构建，旨在解决视频时序定位任务中长期存在的标注数据规模有限、多样性不足的瓶颈问题。传统方法往往受限于手工标注的成本与规模，难以捕捉复杂、开放域的视频-语言对应关系。该数据集通过大规模自动化标注，为学术界提供了统一的、高质量的基准数据，推动了基于多模态大模型的视频理解研究，使得模型能够学习更鲁棒和通用的时序推理能力，对提升定位精度与泛化性具有显著意义。

衍生相关工作

围绕TimeLens-100K数据集，已衍生出一系列重要的研究工作。其核心成果即论文提出的TimeLens模型框架，该框架探索了利用多模态大语言模型重新思考视频时序定位的新范式。此外，该数据集整合了DiDeMo、QuerYD、HiREST等多个经典时序定位数据集的内容，为后续研究提供了统一的训练与评估基础，有望激励社区在视频-语言对齐、弱监督学习以及跨数据集泛化等方向上开展更深入的探索与创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

TimeLens-100K

TimeLens-100K 数据集概述

数据集基本信息

数据集描述

数据集统计

相关资源

引用