TimeLens-Bench, TimeLens-100K
收藏github2025-12-17 更新2025-12-18 收录
下载链接:
https://github.com/TencentARC/TimeLens
下载链接
链接失效反馈官方服务:
资源简介:
TimeLens-Bench是一个全面、高质量的视频时间定位评估基准,包含Charades-TimeLens、ActivityNet-TimeLens和QVHighlights-TimeLens。TimeLens-100K是一个大规模、多样化、高质量的视频时间定位训练数据集,使用Gemini-2.5-Pro进行标注。
TimeLens-Bench is a comprehensive, high-quality evaluation benchmark for video temporal localization, which encompasses Charades-TimeLens, ActivityNet-TimeLens, and QVHighlights-TimeLens. TimeLens-100K is a large-scale, diverse, and high-quality training dataset for video temporal localization, annotated with Gemini-2.5-Pro.
创建时间:
2025-12-17
原始信息汇总
TimeLens 数据集概述
数据集简介
TimeLens 是一个围绕视频时序定位任务构建的资源集合,包含高质量的训练与评估数据集以及开源模型。
核心数据集
1. TimeLens-Bench(评估基准)
- 描述:一个全面、高质量的视频时序定位评估基准。
- 构成:包含三个子数据集:
- Charades-TimeLens
- ActivityNet-TimeLens
- QVHighlights-TimeLens
- 获取地址:https://huggingface.co/datasets/TencentARC/TimeLens-Bench
2. TimeLens-100K(训练数据集)
- 描述:一个大规模、多样化、高质量的视频时序定位训练数据集。
- 标注来源:使用 Gemini-2.5-Pro 进行标注。
- 获取地址:https://huggingface.co/datasets/TencentARC/TimeLens-100K
数据集特点
- 数据质量:针对现有视频时序定位基准中的关键质量问题,提供了质量有保证的数据集。
- 用途:分别用于模型训练(TimeLens-100K)和性能评估(TimeLens-Bench)。
关联模型
该项目基于上述高质量数据集训练并发布了以下开源模型,在视频时序定位任务上达到先进性能:
- TimeLens-7B:基于 Qwen2.5-VL-7B-Instruct 微调。
- TimeLens-8B:基于 Qwen3-VL-8B-Instruct 微调。
- 模型地址:https://huggingface.co/collections/TencentARC/timelens
搜集汇总
数据集介绍

构建方式
在视频时序定位研究领域,数据质量直接影响模型性能评估的可靠性。TimeLens-Bench与TimeLens-100K数据集的构建,体现了对现有基准数据质量问题的系统性反思与革新。TimeLens-Bench作为评估基准,通过对Charades、ActivityNet和QVHighlights等经典数据集的重新标注与质量筛选,形成了三个高质量子集。TimeLens-100K作为训练数据集,则利用Gemini-2.5-Pro大模型对来自CosmoCap、DiDeMo、HiRest、InternVid-VTime和QueryD等多个来源的视频进行自动化标注,最终构建了规模达十万级别、覆盖场景多样的高质量标注数据。
特点
该数据集体系最显著的特点在于其开创性的高质量标准与系统性设计。TimeLens-Bench首次系统性地揭示了传统视频时序定位基准中存在的标注质量问题,并提供了经过严格质量保证的评估标准,其三个子集分别对应不同的视频长度与任务复杂度,构成了一个全面、可靠的评测体系。TimeLens-100K则以其大规模、高多样性和高质量的标注著称,其数据来源于多个异构视频数据集,并采用先进的大语言模型进行标注,确保了标注的准确性与一致性,为模型训练提供了坚实的数据基础。
使用方法
对于研究者而言,该数据集体系提供了便捷高效的标准化使用流程。用户可通过Hugging Face平台直接下载TimeLens-Bench与TimeLens-100K的标注文件与压缩视频数据。评估阶段,项目提供了完整的代码库支持,用户可通过配置环境变量轻松对TimeLens系列模型或自定义模型在基准上进行评测,脚本支持多GPU并行与数据预加载以加速长视频处理。对于训练,项目提供了数据加载接口,便于用户将TimeLens-100K集成到自有训练框架中,同时也预告将发布完整的训练代码。自定义模型的评估需按照指定格式输出预测结果,再利用项目提供的统一指标计算脚本完成性能度量。
背景与挑战
背景概述
视频时序定位作为多模态理解的核心任务,旨在根据自然语言查询精准定位视频中的特定时间片段。传统基准数据集在标注质量和规模上存在局限,制约了模型性能的可靠评估与提升。为此,腾讯ARC实验室的研究团队于近期推出了TimeLens系列数据集,包括用于评估的TimeLens-Bench和用于训练的TimeLens-100K。该工作依托多模态大语言模型技术,重新审视了视频时序定位的数据质量与算法设计,通过整合Charades、ActivityNet和QVHighlights等经典资源,并引入基于Gemini-2.5-Pro的高质量标注,构建了大规模、多样化的基准体系,显著推动了该领域向更可靠、可复现的研究范式演进。
当前挑战
视频时序定位领域长期面临标注噪声与评估不一致的挑战,现有基准中模糊或错误的时序标注严重影响了模型性能的客观衡量。TimeLens-Bench的构建旨在解决这一核心问题,通过严格的质量控制流程,修正了历史数据中的标注偏差,但其自身仍须应对视频内容多样性、复杂事件边界模糊性以及跨数据集评估标准统一等难题。在数据集构建过程中,研究团队需处理海量视频的采集、压缩与存储,并设计高效的并行提取流程以保障数据可用性;同时,依赖先进大模型进行自动化标注时,如何确保时序标签的精确性与语义一致性,亦构成了关键的技术障碍。
常用场景
经典使用场景
在视频时序定位研究领域,TimeLens-Bench与TimeLens-100K数据集为多模态大语言模型的训练与评估提供了核心支撑。经典使用场景聚焦于模型在复杂视频内容中精准定位与自然语言查询相匹配的时间片段,例如在Charades、ActivityNet和QVHighlights等多样化视频数据集上,研究者利用这些高质量标注数据,系统评估模型对动作、事件或特定情节的时序理解与边界识别能力。
实际应用
在实际应用层面,基于TimeLens数据集训练的模型能够赋能智能视频检索、内容摘要生成以及交互式视频问答系统。例如,在安防监控中快速定位特定行为片段,或在教育平台中精确提取教学视频的关键知识点时段,极大提升了长视频内容的结构化理解与高效访问能力,为产业界实现自动化、智能化的视频内容管理提供了坚实的技术基础。
衍生相关工作
围绕TimeLens数据集,已衍生出一系列经典的模型架构与训练方法创新。以TimeLens-7B和TimeLens-8B为代表的开源模型,基于Qwen-VL系列基线,通过融合强化学习与可验证奖励的RLVR训练方案及改进的时序编码策略,在多个基准上取得了领先性能。这些工作不仅验证了高质量数据对模型性能的关键作用,也为后续研究提供了可复现的算法范本与优化方向。
以上内容由遇见数据集搜集并总结生成



