VideoTemp-o3

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/Kwai-Keye/VideoTemp-o3

下载链接

链接失效反馈

官方服务：

资源简介：

VideoTemp-o3数据集是一个用于训练VideoTemp-o3模型的多源视频问答对集合，旨在协调时间定位与视频理解，支持智能体化的“视频思维”流程。该数据集汇集了来自多个公开视频理解与时间定位数据集的样本，包括Charades-STA、ActivityNet-MR、VidChapters-7M、QvHighlight、Time-R1、Video-R1、LongVideo-Reason和LongVILA。具体而言，其监督微调（SFT）部分中的activitynet.jsonl、charades.jsonl和vidchapters.jsonl文件源自MultiTaskVideoReasoning数据集。数据形式为视频与对应的问答对，用于训练模型执行按需时间定位——即给定视频和问题，模型需定位视频中最相关的片段，并通过迭代优化该定位，最终基于定位到的视觉证据生成可靠的答案。该数据集适用于视频时序定位、视频问答、视频理解以及智能体决策等任务。

The VideoTemp-o3 dataset is a multi-source video question-answer pair collection for training the VideoTemp-o3 model, aiming to coordinate temporal localization and video understanding, and support an agentized video thinking process. It aggregates samples from multiple public video understanding and temporal localization datasets, including Charades-STA, ActivityNet-MR, VidChapters-7M, QvHighlight, Time-R1, Video-R1, LongVideo-Reason, and LongVILA. Specifically, the supervised fine-tuning (SFT) part includes files such as activitynet.jsonl, charades.jsonl, and vidchapters.jsonl, derived from the MultiTaskVideoReasoning dataset. The data format consists of videos paired with corresponding question-answer pairs, used to train the model to perform on-demand temporal localization—that is, given a video and a question, the model needs to locate the most relevant segment in the video, iteratively refine this localization, and ultimately generate reliable answers based on the localized visual evidence. This dataset is suitable for tasks such as video temporal localization, video question answering, video understanding, and agent decision-making.

创建时间：

2026-05-18

原始信息汇总

数据集概述：VideoTemp-o3

VideoTemp-o3 是一个面向视频理解与时间定位的联合训练数据集，旨在提升模型在“智能体式思考与视频交互（Agentic Thinking-with-Videos）”场景下的表现。该数据集包含监督微调（SFT）和强化学习（RL）两部分数据，由多个公开数据源整合而成，可用于训练具备按需时间定位与视觉证据推理能力的视频模型。

数据集构成

数据来源	原始仓库地址
Charades-STA	https://github.com/jiyanggao/TALL
ActivityNet-MR	https://cs.stanford.edu/people/ranjaykrishna/densevid/
VidChapters-7M	https://github.com/antoyang/VidChapters
QvHighlight	https://github.com/jayleicn/moment_detr
Time-R1	https://huggingface.co/datasets/Boshenxx/TimeR1-Dataset
Video-R1	https://huggingface.co/datasets/Video-R1/Video-R1-data
LongVideo-Reason	https://github.com/NVlabs/Long-RL
LongVILA	https://huggingface.co/datasets/LongVILA/longvila_sft_dataset

特别地，sft/activitynet.jsonl、sft/charades.jsonl 和 sft/vidchapters.jsonl 三个子文件来源于 MultiTaskVideoReasoning 数据集。

数据用途与特点

训练目标：使模型能根据视频问答对（video QA pair）进行按需时间定位，定位最相关的视频片段，并经过迭代优化后，基于视觉证据产生可靠答案。
数据内容：包含多种视频理解任务（如时间定位、时间推理）的问答对，覆盖短视频（如 Charades-STA）和长视频（如 LongVideo-Reason、LongVILA）场景。
许可证：MIT 许可证。
语言：英语。

引用信息

如使用本数据集，请引用以下论文：

bibtex @article{liu2026videotemp, title={VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos}, author={Liu, Wenqi and Wang, Yunxiao and Ma, Shijie and Liu, Meng and Su, Qile and Zhang, Tianke and Fan, Haonan and Liu, Changyi and Jiang, Kaiyu and Chen, Jiankang and Tang, Kaiyu and Wen, Bin and Yang, Fan and Gao, Tingting and Li, Han and Wei, Yinwei and Song, Xuemeng}, journal={arXiv preprint arXiv:2602.07801}, year={2026} }

相关链接

项目主页：https://liuwq-bit.github.io/VideoTemp-o3
论文：https://arxiv.org/abs/2602.07801
代码：https://github.com/Kwai-Keye/VideoTemp-o3
模型：https://huggingface.co/Kwai-Keye/VideoTemp-o3
数据集：https://huggingface.co/datasets/Kwai-Keye/VideoTemp-o3
基准测试：https://huggingface.co/datasets/Kwai-Keye/VideoTemp-Bench

搜集汇总

数据集介绍

构建方式

VideoTemp-o3数据集的构建，源于对视频理解与时间定位任务深度融合的迫切需求。该数据集系统整合了多个公开权威的视频定位与推理资源，包括Charades-STA、ActivityNet-MR、VidChapters-7M、QvHighlight等经典时序定位数据集，以及Time-R1、Video-R1、LongVideo-Reason、LongVILA等前沿视频推理数据集。通过精心筛选与整合来自这些异构源的问题-答案对，构建出覆盖广泛视频场景与复杂推理任务的高质量训练语料。部分SFT数据（如activitynet、charades、vidchapters）进一步借用了MultiTaskVideoReasoning的整理成果，确保了数据格式的统一性与可用性。

特点

该数据集的核心特色在于其开创性地将时间定位与视频理解统一于一个智能体式推理框架之中。不同于传统方法将两者割裂处理，VideoTemp-o3中的每条样本均设计为要求模型按需定位最相关的视频片段，进行迭代优化，并基于确凿的视觉证据生成可靠答案。这种“思考-观看”协同机制，使模型在回答问题前能够主动检索和聚焦关键时刻，显著提升了复杂视频问答的准确性与可解释性。数据集覆盖了从短片段到长视频、从简单描述到复杂推理的多样化任务，为训练具有类人时序推理能力的多模态智能体提供了坚实基础。

使用方法

该数据集适用于监督微调（SFT）与强化学习（RL）两个训练阶段，旨在优化多模态大语言模型在视频理解与时间定位上的协同能力。使用时，研究人员可基于HuggingFace上提供的SFT与RL数据直接进行模型训练，或将其作为评估基准的一部分。推荐将VideoTemp-o3数据与配套的VideoTemp-Bench基准测试结合使用，以系统度量模型在代理式视频推理任务上的表现。训练流程可参照项目官方代码库中的配置，模型接收视频及对应文本查询，输出定位结果与推理答案，通过迭代优化策略不断精进时序理解与视觉推理的耦合效率。

背景与挑战

背景概述

VideoTemp-o3数据集由快手Keye团队联合多位学者于2026年发布，旨在解决视频理解中时间定位与推理能力割裂的核心困境。传统方法或专注于时间片段检索，或侧重全局语义解析，难以协同完成细粒度、因果式的视频问答任务。该数据集整合了Charades-STA、ActivityNet-MR、VidChapters-7M等八项公开资源，通过构建“代理式思考与视频交互”流程，推动模型在感知时间边界的同时进行逻辑推理，为多模态智能体从静态感知迈向动态理解提供了关键数据基础。

当前挑战

当前领域面临的主要挑战在于视频时序理解与高层语义推理的鸿沟。一方面，现有模型难以精准定位与问题相关的动态片段，尤其在多事件、长视频场景中，时间边界模糊导致定位偏差；另一方面，构建过程需融合异构标注格式（如时刻级与区间级标签），统一时间粒度与语义空间，同时消除跨数据集噪声。此外，如何设计迭代式“定位-推理-验证”的闭环训练范式，使模型具备主动搜索关键证据并修正错误的能力，亦是数据集构建中的核心难题。

常用场景

经典使用场景

VideoTemp-o3数据集专为视频时间定位与理解的协同优化而设计，其经典使用场景聚焦于推动“思考-观看-推理”（agentic thinking-with-videos）范式的发展。研究者可借助该数据集训练模型，使其在执行视频问答任务时，能够自主定位与问题高度相关的视频片段，并基于该片段进行迭代式精细化推理。该场景广泛适用于短视频剪辑分析、视频检索、长时间视频理解等研究领域，为构建具备类人时空推理能力的视觉语言模型提供了关键训练资源。

解决学术问题

该数据集解决了视频理解领域中时间定位与高层语义推理彼此割裂的学术难题。传统方法通常将时间片段检测和视频问答视为独立任务，导致模型缺乏从局部视觉证据逐步推导全局答案的能力。VideoTemp-o3通过整合多源公开数据，首次将时间感知的搜索-验证-推理循环融入训练流程，为研究如何将因果推理、自适应注意力分配与时空感知有机统一提供了标准化基准。其意义在于开辟了“智能体式视频推理”（agentic video reasoning）这一新兴研究方向，显著推动了多模态大模型在复杂时间依赖任务上的认知水平。

衍生相关工作

基于VideoTemp-o3数据集，学术界已涌现出一系列衍生工作。典型代表包括探索基于强化学习的时间定位优化方法（Time-R1）、面向长视频的联合推理模型（LongVideo-Reason与LongVILA）、以及融合时间与空间维度的多粒度视频理解框架（Time-R1与Video-R1）。这些工作利用VideoTemp-o3提供的SFT与RL两阶段训练数据，验证了从片段级时序定位到全局语义推理的完整路径的可迁移性。此外，围绕该数据集建立的VideoTemp-Bench评测基准已成为评估视频智能体推理能力的重要标准，激发了众多关于缩放规则、记忆机制与推理效率的后续研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集