VideoITG-40K

Name: VideoITG-40K
Creator: 香港理工大学, 南京大学, 英伟达, 哈佛大学
Published: 2025-07-18 01:59:59
License: 暂无描述

arXiv2025-07-18 更新2025-07-19 收录

下载链接：

https://nvlabs.github.io/VideoITG/

下载链接

链接失效反馈

官方服务：

资源简介：

VideoITG-40K是一个大规模的视频理解数据集，由香港理工大学、南京大学、英伟达和哈佛大学的研究人员构建。该数据集包含40,000个视频和500,000个指令引导的时间定位标注，旨在解决长视频理解中的复杂场景问题。VideoITG通过指令引导的帧采样，能够有效处理多时态线索，并针对不同任务需求定制帧选择策略。VidThinker是一个自动化数据标注流程，通过指令引导的剪辑字幕、检索和帧定位，确保了高质量的标注。VideoITG-40K数据集的创建过程借鉴了人类的推理过程，采用粗到精的策略，并使用GPT-4o进行详细剪辑描述，随后通过“Needle-In-A-Haystack”方法进行指令引导的剪辑检索。数据集的分类指令分为四类，分别对应视频问答中的不同推理需求。VideoITG-40K数据集在规模和质量上都显著超越了之前的时间定位数据集，为视频理解模型的训练提供了丰富的资源。

VideoITG-40K is a large-scale video understanding dataset constructed by researchers from The Hong Kong Polytechnic University, Nanjing University, NVIDIA, and Harvard University. This dataset contains 40,000 videos and 500,000 instruction-guided temporal localization annotations, aiming to address complex scene challenges in long-form video understanding. VideoITG adopts instruction-guided frame sampling, which can effectively handle multi-temporal cues and customize frame selection strategies for different task requirements. VidThinker is an automated data annotation pipeline that ensures high-quality annotations via instruction-guided clip captioning, retrieval, and frame localization. The creation process of the VideoITG-40K dataset draws on human reasoning procedures, adopting a coarse-to-fine strategy: it first uses GPT-4o to generate detailed clip descriptions, then conducts instruction-guided clip retrieval via the "Needle-In-A-Haystack" method. The dataset’s classification instructions are divided into four categories, corresponding to different reasoning demands in video question answering. The VideoITG-40K dataset significantly outperforms previous temporal localization datasets in both scale and quality, providing rich resources for the training of video understanding models.

提供机构：

香港理工大学, 南京大学, 英伟达, 哈佛大学

创建时间：

2025-07-18

原始信息汇总

VideoITG数据集概述

基本信息

数据集名称：VideoITG (Instructed Temporal Grounding for Videos)
开发团队：Shihao Wang等（香港理工大学、NVIDIA、南京大学、哈佛大学）
联系方式：cslzhang@comp.polyu.edu.hk; scutchrisding@gmail.com
相关资源：arXiv论文、代码模型（即将发布）、数据集

核心创新

提出指令引导的时序定位框架(VideoITG)
开发VidThinker自动化标注流程：
1. 基于指令的片段级视频描述生成
2. 指令引导的相关片段检索
3. 细粒度帧级定位

数据集详情

名称：VideoITG-40K
规模：40,000个视频
标注量：500,000条指令时序定位标注
标注策略：
- 语义聚焦指令：选择包含关键视觉线索的多样化帧
- 运动聚焦指令：均匀采样以捕捉动态变化
- 混合需求：应用混合采样策略
- 开放指令：全视频最小多样化帧采样

模型设计

文本生成：对齐视频和语言token进行序列预测
分类架构：
- 因果注意力：使用锚点token管理时序线索
- 完全注意力：促进视觉和文本token的跨模态交互

性能表现

与不同Video-LLMs集成时获得持续性能提升
在多模态视频理解基准测试中表现优越

引用信息

bibtex @misc{wang2025videoitgmultimodalvideounderstanding, title={VideoITG: Multimodal Video Understanding with Instructed Temporal Grounding}, author={Shihao Wang et al.}, year={2025}, eprint={2507.13353}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.13353} }

许可信息

网站授权：Creative Commons Attribution-ShareAlike 4.0 International License

搜集汇总

数据集介绍

构建方式

VideoITG-40K数据集的构建采用了创新的VidThinker自动化标注流程，该流程模拟人类标注者的认知过程，通过三个关键步骤实现：首先，基于用户指令生成详细的片段级描述；其次，通过指令引导的推理检索相关视频片段；最后，执行细粒度的帧级定位以确定最具信息量的视觉证据。整个流程利用GPT-4o等大语言模型的能力，确保了标注的高质量和与任务需求的高度对齐。

使用方法

VideoITG-40K数据集的使用方法灵活多样，主要支持视频大语言模型（Video-LLMs）的训练和评估。用户可以通过集成VideoITG模型，实现基于指令的帧选择，从而优化视频理解任务中的关键帧提取。数据集特别适用于长视频理解、视频问答和多模态推理等复杂场景，用户可以根据具体任务需求，选择不同的指令类型和帧选择策略，以达到最佳的性能表现。

背景与挑战

背景概述

VideoITG-40K是由香港理工大学、南京大学、NVIDIA和哈佛大学的研究团队联合构建的大规模视频理解数据集，旨在解决长视频理解中的关键帧选择问题。该数据集包含40,000个视频和500,000条指令引导的时间标注，通过创新的VidThinker自动化标注流程生成。VideoITG-40K的核心研究问题是如何根据用户指令精准定位视频中的关键帧，以提升视频大语言模型（Video-LLMs）在长视频理解任务中的性能。该数据集的构建灵感来源于人类分析长视频时的分步方法：浏览整体内容、定位问题相关线索、聚焦特定片段。VideoITG-40K的发布显著推动了多模态视频理解领域的发展，并在多个基准测试中展现了其优越性。

当前挑战

VideoITG-40K面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，长视频理解中的关键帧选择需要处理高冗余的时空信息，同时保持对复杂场景的敏感度。现有方法如统一帧采样或基于相似度的帧选择策略难以平衡计算效率与信息完整性，导致在长视频理解任务中性能受限。在构建过程方面，自动化标注流程需要精确模拟人类标注的认知过程，包括指令解析、粗粒度片段检索和细粒度帧定位。此外，数据集的规模和质量要求高效的标注方法，同时确保标注与多样化的用户指令对齐。这些挑战需要通过创新的算法设计和严格的验证流程来解决，以构建高质量的视频理解数据集。

常用场景

经典使用场景

在视频理解领域，VideoITG-40K数据集通过其独特的指令引导时间定位机制，为长视频理解任务提供了关键支持。该数据集最经典的使用场景在于为视频大语言模型（Video-LLMs）提供精确的帧选择策略，使得模型能够根据用户指令从长视频中筛选出最具信息量的关键帧。通过模拟人类标注过程的三阶段流程（片段描述生成、指令引导片段检索和细粒度帧定位），该数据集有效解决了传统均匀采样方法在长视频处理中遗漏关键信息的问题，为视频问答、视频摘要等任务提供了高质量的标注数据。

解决学术问题

VideoITG-40K数据集主要解决了视频理解领域中的三个核心学术问题：长视频信息冗余导致的模型效率低下、用户指令与视频内容对齐困难、以及多时间线索的复杂推理。该数据集通过500K条指令依赖的标注，建立了视频内容与用户查询之间的细粒度关联，显著提升了模型在CG-Bench、MLVU等多模态视频理解基准上的性能（最高提升达9.0%）。其创新性的指令分类体系（语义型、运动型、混合型和非线索型）为视频时序理解提供了新的研究范式，推动了视频-语言对齐技术的发展。

实际应用

在实际应用层面，VideoITG-40K数据集已成功部署于智能视频监控、交互式视频检索和自动化视频摘要系统。在影视制作领域，该数据集支持的帧选择技术可精确识别符合导演意图的关键镜头；在教育视频平台中，能根据学习目标自动提取概念讲解片段。其平均120秒的视频时长处理能力特别适用于在线课程、体育赛事分析等长视频场景，相比传统方法减少30%以上的计算资源消耗，同时保持92%的关键事件召回率。

数据集最近研究