Video-Thinker-10K

Name: Video-Thinker-10K
Creator: 东南大学、莫纳什大学、小红薯公司、南加州大学、复旦大学
Published: 2025-10-28 00:10:45
License: 暂无描述

arXiv2025-10-28 更新2025-11-04 收录

下载链接：

https://hf-mirror.com/ShijianW01/Video-Thinker-7B

下载链接

链接失效反馈

官方服务：

资源简介：

Video-Thinker-10K是一个精心策划的训练数据集，包含10,000个样本，涵盖了各种视频推理任务和领域。每个样本包括精心选择的视频片段、详细描述每个时间窗口的视觉线索的标题以及展示如何将多模态线索综合用于复杂视频理解任务的推理痕迹。该数据集旨在帮助MLLMs通过内在的“定位”和“标题”能力进行视觉推理，无需依赖外部工具。

Video-Thinker-10K is a carefully curated training dataset consisting of 10,000 samples spanning diverse video reasoning tasks and domains. Each sample comprises carefully selected video clips, captions that detail the visual cues present in each temporal window, and reasoning traces that demonstrate how to integrate multimodal cues for complex video understanding tasks. This dataset is designed to enable Multimodal Large Language Models (MLLMs) to perform visual reasoning via their inherent "localization" and "captioning" capabilities, without relying on external tools.

提供机构：

东南大学、莫纳什大学、小红薯公司、南加州大学、复旦大学

创建时间：

2025-10-28

搜集汇总

数据集介绍

构建方式

Video-Thinker-10K数据集的构建采用了前瞻性回溯推理方法，通过系统化的数据转换流程精心打造。该流程首先从ActivityNet、TutorialVQA、YouCook2、STAR、ScaleLong和LVBench六个权威视频数据源中筛选高质量样本，确保视频帧数不少于64帧以保证充分的时间内容。针对不同特性的数据集，分别采用差异化生成策略：对于富含时间标注的描述性数据集，利用DeepSeek-R1生成需要跨视频片段推理的复杂选择题；对于具备高质量问答对的数据集，则通过Gemini-2.5-Flash-Lite生成答案导向的视觉描述。最终通过DeepSeek-V3进行反向回溯生成，构建包含时间定位、视觉线索描述和分析推理的完整推理轨迹。

使用方法

Video-Thinker-10K数据集的使用遵循严谨的两阶段训练范式。在监督微调阶段，模型通过学习数据集中的结构化推理轨迹，掌握基础格式遵循能力，这一阶段采用负对数似然损失函数进行优化，使模型能够预测推理轨迹和最终答案的每个后续标记。在强化学习阶段，采用分组相对策略优化方法，仅以最终答案作为结果奖励，通过生成多个候选响应并评估其相对质量来优化模型策略。奖励函数结合正确性和格式两个组件，优势计算基于组内归一化奖励。这种训练策略使模型能够内在地获取定位和描述能力，为复杂的视频推理任务实现自主时间导航。在推理过程中，模型能够动态生成包含时间定位、视觉描述和分析思考的结构化推理输出。

背景与挑战

背景概述

Video-Thinker-10K数据集于2025年由东南大学、莫纳什大学、小红书等机构联合构建，旨在推动多模态大语言模型在视频推理领域的发展。该数据集的核心研究问题聚焦于解决视频理解中的时序依赖与动态推理挑战，通过引入自主工具使用机制，使模型能够在推理过程中动态调用内部基础定位与描述能力。作为首个将强化学习与视频思维链相结合的数据集，Video-Thinker-10K通过精心设计的10,000个样本，显著提升了模型在复杂视频场景下的推理性能，为视频理解研究开辟了新的技术路径。

当前挑战

在解决视频推理问题方面，该数据集面临时序信息建模的复杂性挑战，需要模型同时处理空间视觉特征与时间动态演化。构建过程中，数据合成面临多源异构数据融合的难题，需从六个不同领域的数据集中提取并统一标注格式。时序标注的精确性与视觉描述的一致性构成主要技术瓶颈，通过后见之明筛选机制确保生成内容与最终答案的逻辑关联性，同时需平衡不同视频长度与语义复杂度对模型训练的影响。

常用场景

经典使用场景

在视频理解研究领域，Video-Thinker-10K数据集主要应用于多模态大语言模型的视频推理能力训练。该数据集通过精心构建的思维链推理序列，支持模型在视频分析过程中自主调用时间定位和内容描述能力。其典型使用场景包括视频问答、时序推理和复杂场景理解等任务，为模型提供了从感知到认知的完整推理框架。数据集涵盖人类活动、教学指导、烹饪流程等多个领域，确保了训练内容的多样性和实用性。

解决学术问题

该数据集有效解决了视频推理中时序依赖建模和动态视觉叙事理解的学术难题。传统方法将视频视为静态输入，而Video-Thinker-10K通过引入时间定位和内容描述作为推理过程中的内在工具，使模型能够自主导航和分析特定时间片段。这种范式突破了以往依赖外部工具或预设计推理链的局限，显著提升了模型在Video-Holmes、CG-Bench-Reasoning等挑战性基准上的表现，为视频理解研究提供了新的技术路径。

实际应用

在实际应用层面，Video-Thinker-10K支撑的视频推理技术可广泛应用于智能视频监控、教育辅助系统和内容理解平台。基于该数据集训练的模型能够自动分析监控视频中的异常行为，为安防领域提供决策支持；在教学场景中，可理解教学视频的逻辑结构，生成智能辅导内容；在媒体行业，能实现长视频的自动摘要和内容检索。这些应用显著提升了视频内容处理的自动化水平，具有重要的产业价值。

数据集最近研究