TimeLens-Bench, TimeLens-100K

Name: TimeLens-Bench, TimeLens-100K
Creator: 南京大学, ARC Lab, 腾讯PCG, 上海AI Lab
Published: 2025-12-17 02:59:58
License: 暂无描述

arXiv2025-12-17 更新2025-12-18 收录

下载链接：

https://timelens-arc-lab.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

TimeLens-Bench是由南京大学、腾讯PCG等机构联合构建的高质量视频时序定位基准，包含对Charades-STA、ActivityNet Captions和QVHighlights三个流行数据集的重新标注版本，严格遵循事件唯一性、存在性和标注准确性等标准。该数据集规模达10万条，通过人工审核和自动化流程修正了原始数据中34.9%的标注错误，显著提升了数据的可靠性。数据集构建采用诊断-修正工作流，包括交叉验证和难度分级采样，主要应用于多模态大语言模型的时序感知能力训练，旨在解决视频理解中'何时发生'的精确定位问题。

TimeLens-Bench is a high-quality video temporal localization benchmark jointly constructed by institutions including Nanjing University and Tencent PCG. It includes re-annotated versions of three popular datasets: Charades-STA, ActivityNet Captions, and QVHighlights, which strictly adhere to standards such as event uniqueness, annotation existence, and annotation accuracy. The dataset consists of 100,000 annotated entries, with 34.9% of the annotation errors in the original data corrected via manual review and automated workflows, significantly improving the dataset's reliability. The construction of TimeLens-Bench adopts a diagnostic-correction workflow encompassing cross-validation and difficulty-stratified sampling. It is primarily used for training multimodal large language models on their temporal perception capabilities, aiming to address the precise localization problem of "when an event occurs" in video understanding.

提供机构：

南京大学, ARC Lab, 腾讯PCG, 上海AI Lab

创建时间：

2025-12-17

搜集汇总

数据集介绍

构建方式

在视频时序定位领域，现有基准数据集常因标注质量参差不齐而影响评估可靠性。TimeLens-Bench与TimeLens-100K的构建，源于对主流数据集（如Charades-STA、ActivityNet Captions、QVHighlights）的系统性诊断与精细化重构。通过制定严格的标注准则——包括查询清晰性、事件唯一性、时间戳精确性等维度，研究团队采用人工审核与交叉验证流程，对原始数据中的错误样本进行逐一修正与重新标注。这一过程不仅纠正了原有数据集中存在的事件重复、边界模糊等问题，还通过自动化流水线扩展生成了大规模高质量训练集TimeLens-100K，为模型训练与评估奠定了坚实的数据基础。

使用方法

TimeLens-Bench主要作为评估基准，用于测试多模态大语言模型在视频时序定位任务上的性能。研究人员可将模型在该数据集上进行推理，通过标准指标（如R1@0.3/0.5/0.7、mIoU）量化其定位精度。TimeLens-100K则作为训练资源，支持模型通过监督微调或强化学习进行能力优化。在实际使用中，建议结合论文提出的最佳实践——如采用交错文本编码表示时间信息、使用无思维的强化学习验证奖励训练范式，并配合早期停止与难度感知数据采样策略。这些方法协同作用，能够有效提升模型在复杂视频场景中的时序感知与事件定位能力。

背景与挑战

背景概述

视频时序定位作为视频理解领域的核心任务，旨在根据文本查询在长视频中精准定位对应事件的发生时段。随着多模态大语言模型在各类视频理解任务中展现出卓越性能，其在时序定位能力上的优化路径却尚未明晰。TimeLens系列数据集由南京大学、腾讯ARC实验室及上海人工智能实验室的研究团队于2025年提出，其核心研究问题在于系统性地探索构建具备强大时序定位能力的多模态大语言模型的关键因素。该工作通过诊断现有基准数据集中存在的严重质量问题，并引入严格的质量标准进行精细化重标注，创建了TimeLens-Bench评估套件与TimeLens-100K训练数据集，为相关领域提供了可靠的数据基础与算法设计洞见，显著推动了视频时序定位模型的评估可靠性与性能边界。

当前挑战

TimeLens数据集所应对的核心领域挑战在于提升多模态大语言模型在视频时序定位任务上的精确性与鲁棒性。该任务要求模型从粗粒度的语义聚合转向细粒度的时序感知，并需在长程视觉动态中区分查询事件，这对标注质量与模型学习均构成严峻考验。在数据集构建过程中，研究团队面临多重具体挑战：首先，现有基准数据集普遍存在查询模糊、事件不存在、标注不准确以及重复查询等严重质量问题，导致评估结果失真并误导研究方向；其次，大规模高质量训练数据的获取与标注成本极高，且自动化标注流程需在保证多样性的同时，严格满足事件唯一性、存在性、清晰度与时间边界精确性等多重严苛标准。这些挑战共同凸显了构建可靠评估体系与高质量训练资源的必要性与复杂性。

常用场景

经典使用场景

在视频时序定位领域，TimeLens-Bench作为一套经过严格人工重标注的高质量评估基准，其经典使用场景在于为多模态大语言模型提供可靠的性能评测框架。该数据集通过对Charades-STA、ActivityNet Captions和QVHighlights三大主流基准的精细化修正，构建了涵盖日常生活、活动记录与混合场景的多样化测试环境。研究者借助这一基准能够准确衡量模型在长视频中定位特定事件的时间边界能力，从而推动视频理解技术向更精细的时间感知维度演进。

解决学术问题

TimeLens数据集系统性地解决了视频时序定位研究中长期存在的评估可靠性问题。传统基准因标注噪声、查询模糊及时间戳不准确等缺陷，导致模型排名失真，甚至误导学术发展方向。该数据集通过定义严格的质量标准，如事件唯一性、存在性、查询清晰度与标注精确性，并采用诊断后修正的流程，显著提升了数据的可信度。其意义在于为领域建立了坚实的评估基础，促使研究重心从拟合有缺陷的数据分布转向真正提升模型的时序感知能力，对视频理解领域的科学进展产生了深远影响。

实际应用

在实际应用层面，TimeLens数据集为构建具备强时序定位能力的多模态大语言模型提供了关键支撑。基于TimeLens-100K大规模高质量训练数据开发的模型，能够精准理解用户以自然语言描述的查询，并在长视频中定位对应事件的发生时段。这一能力可广泛应用于智能视频检索、内容摘要生成、安防监控事件分析以及交互式教育媒体等场景。例如，在多媒体内容平台中，用户可通过口语化提问快速定位感兴趣的视频片段，极大提升了信息获取的效率和体验。

数据集最近研究