TimeLens-Bench
收藏Hugging Face2025-12-19 更新2025-12-20 收录
下载链接:
https://huggingface.co/datasets/TencentARC/TimeLens-Bench
下载链接
链接失效反馈官方服务:
资源简介:
TimeLens-Bench是一个用于视频时间定位的综合、高质量评估基准,由论文《TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs》提出。在标注过程中,发现了现有数据集中的关键质量问题,并进行了大量手动修正。与旧有基准相比,TimeLens-Bench显著改变了模型的排名,证明了其提供了更可靠的视频时间定位评估。数据集包含三个经过手动精炼的评估数据集:Charades-TimeLens、ActivityNet-TimeLens和QVHighlights-TimeLens,分别来自Charades-STA、ActivityNet-Captions和QVHighlights源数据集。
TimeLens-Bench is a comprehensive, high-quality evaluation benchmark for video temporal grounding, proposed in the paper "TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs". During the annotation process, critical quality issues in existing datasets were identified and extensively manually corrected. Compared with prior benchmarks, TimeLens-Bench significantly alters the ranking of models, proving that it provides more reliable evaluations for video temporal grounding. The dataset includes three manually refined evaluation datasets: Charades-TimeLens, ActivityNet-TimeLens, and QVHighlights-TimeLens, which are derived from the source datasets Charades-STA, ActivityNet-Captions, and QVHighlights respectively.
创建时间:
2025-12-14
原始信息汇总
TimeLens-Bench 数据集概述
数据集基本信息
- 数据集名称:TimeLens-Bench
- 许可证:bsd-3-clause
- 许可证链接:https://github.com/TencentARC/TimeLens/blob/main/LICENSE
- 主要语言:英语 (en)
- 任务类别:视频文本到文本 (video-text-to-text)
- 数据规模:10K<n<100K
数据集描述
TimeLens-Bench 是一个用于视频时序定位的综合、高质量评估基准。该数据集在标注过程中识别并手动修正了现有数据集中的关键质量问题。与旧有基准相比,模型在 TimeLens-Bench 上的排名发生了显著变化,表明该基准能为视频时序定位提供更可靠的评估。
数据集统计
该基准包含三个广泛使用的视频时序定位评估数据集的精炼版本。
| 精炼数据集 | 视频数量 | 平均时长 (秒) | 标注数量 | 源数据集 | 源数据集链接 |
|---|---|---|---|---|---|
| Charades-TimeLens | 1313 | 29.6 | 3363 | Charades-STA | https://github.com/jiyanggao/TALL |
| ActivityNet-TimeLens | 1455* | 134.9 | 4500 | ActivityNet-Captions | https://cs.stanford.edu/people/ranjaykrishna/densevid/ |
| QVHighlights-TimeLens | 1511 | 149.6 | 1541 | QVHighlights | https://github.com/jayleicn/moment_detr |
注:为降低 ActivityNet Captions 过高的评估成本,ActivityNet-TimeLens 通过在不同时长区间内均匀采样视频进行构建。
相关资源
- 论文:https://arxiv.org/abs/2512.14698
- 代码仓库:https://github.com/TencentARC/TimeLens
- 项目主页:https://timelens-arc-lab.github.io/
- 模型与数据集合:https://huggingface.co/collections/TencentARC/timelens
- 排行榜:https://timelens-arc-lab.github.io/#leaderboard
- 使用说明:请参考 GitHub 仓库中的指南 (https://github.com/TencentARC/TimeLens#-evaluation-on-timelens-bench)。
引用信息
如果本工作对您的研究和应用有所帮助,请引用我们的论文: bibtex @article{zhang2025timelens, title={TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs}, author={Zhang, Jun and Wang, Teng and Ge, Yuying and Ge, Yixiao and Li, Xinhao and Shan, Ying and Wang, Limin}, journal={arXiv preprint arXiv:2512.14698}, year={2025} }
搜集汇总
数据集介绍

构建方式
在视频时序定位研究领域,构建高质量评估基准是推动模型性能可靠比较的关键。TimeLens-Bench的构建源于对现有数据集质量问题的深入审视,通过对广泛使用的三个经典数据集——Charades-STA、ActivityNet-Captions与QVHighlights——进行系统性的手工修正与精炼。具体而言,研究团队识别了原始标注中存在的关键瑕疵,并执行了大规模人工校对,确保时间边界与描述文本的精确对齐。针对规模过大的ActivityNet-Captions,还采用了按视频时长均匀采样的策略以控制评估成本,最终形成了Charades-TimeLens、ActivityNet-TimeLens与QVHighlights-TimeLens三个精炼子集,共同构成这一综合基准。
使用方法
为使用该数据集进行模型评估,研究者需遵循项目官方代码库提供的详细指南。典型流程包括从指定链接下载经精炼的标注文件与对应的视频数据,并按照基准设定的统一评估协议计算标准指标。由于数据集构建时已对标注进行了清洗与规范化,用户可直接将其集成到现有评估流程中,无需额外的预处理步骤。通过在该基准上测试模型,研究者能够获得更具可比性与说服力的性能结果,从而推动视频时序定位领域的技术进步与公平比较。
背景与挑战
背景概述
视频时序定位作为多模态理解的核心任务,旨在将自然语言查询与视频中的特定时间片段进行精准对齐。该领域长期依赖Charades-STA、ActivityNet-Captions及QVHighlights等基准数据集推动模型发展,然而这些数据集在标注质量上存在隐忧,可能影响评估的可靠性。2025年,腾讯ARC实验室的研究团队推出了TimeLens-Bench,这一高质量评估基准通过对现有数据集进行系统性人工修正与优化,旨在为视频时序定位提供更为严谨和稳健的性能衡量标准,其构建工作体现了对数据质量深刻反思的学术追求。
当前挑战
视频时序定位领域面临的核心挑战在于,现有模型在传统基准上的优异表现可能部分源于数据标注中的噪声或偏差,而非真正的时序理解能力,这导致模型评估失真,阻碍了技术的实质性进步。在构建TimeLens-Bench过程中,研究团队遭遇了严峻的数据质量挑战,包括原始数据集中普遍存在的时间边界标注不精确、描述与片段内容失配等问题,需投入大量人力进行细致校验与修正;同时,针对如ActivityNet-Captions等大规模数据集,还需设计科学的采样策略以平衡评估成本与数据代表性,这些努力共同指向了构建可靠评估生态的深层难题。
常用场景
经典使用场景
在视频时序定位领域,TimeLens-Bench作为一个高质量评估基准,其经典使用场景在于系统性地评测模型在视频中精准定位与自然语言描述对应时间片段的能力。该数据集通过对Charades-STA、ActivityNet-Captions和QVHighlights等广泛使用的数据集进行人工精校,构建了更可靠的评估环境,使得研究者能够客观比较不同模型在复杂视频内容理解任务上的性能,尤其适用于验证模型在长视频、多事件场景下的时序推理准确性。
解决学术问题
TimeLens-Bench主要解决了视频时序定位研究中因数据集标注质量不一致而导致的评估偏差问题。传统数据集中存在的标注噪声、歧义或错误,往往使得模型性能排名失真,难以真实反映算法优劣。该数据集通过大规模人工修正,显著提升了标注的精确性与一致性,为学术社区提供了一个可信赖的基准,从而推动研究聚焦于模型本质能力的提升,而非过拟合有缺陷的数据,对促进领域向更严谨、可复现的方向发展具有深远意义。
实际应用
在实际应用层面,TimeLens-Bench所支撑的视频时序定位技术,为智能视频检索、内容摘要生成以及交互式媒体系统提供了关键基础。例如,在大型视频平台中,用户可以通过自然语言查询快速定位到特定片段;在教育或安防领域,系统能自动提取与描述事件相关的视频段落,大幅提升信息处理效率。该数据集的高质量标注确保了这些应用场景下模型的鲁棒性与实用性,为产业界部署可靠的视频理解解决方案奠定了评估基石。
数据集最近研究
最新研究方向
在视频时序定位领域,现有基准数据集的质量问题日益凸显,制约了模型评估的可靠性。TimeLens-Bench作为一项高质量评估基准,通过人工精校多个主流数据集,显著改变了模型性能的排名格局,揭示了过往评估中存在的偏差。这一进展推动了研究焦点转向数据质量本身,促使社区重新审视标注一致性与评估协议的设计。当前前沿工作正围绕多模态大语言模型在时序推理中的应用展开,探索如何利用其强大的语义理解能力提升定位精度,同时该基准的建立也为模型鲁棒性与泛化性能的检验提供了更坚实的依据,对视频内容理解技术的发展具有深远影响。
以上内容由遇见数据集搜集并总结生成



