Video-CoT

Name: Video-CoT
Creator: 中国科学院自动化研究所、中国科学院大学人工智能学院、清华大学深圳国际研究生院、北京智源人工智能研究院
Published: 2025-06-12 23:51:33
License: 暂无描述

arXiv2025-06-12 更新2025-06-12 收录

下载链接：

https://video-cot.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

Video-CoT是一个基于思维链（CoT）方法的视频时空理解综合数据集，包含192,000个细粒度的时空问答对和23,000个高质量的CoT注释样本。该数据集由三个部分组成：时空定位和字幕、时空定位、时空参考。数据集旨在评估视频理解中的时空理解，并支持多媒体理解和智能系统中的视频分析能力。

Video-CoT is a comprehensive dataset for video spatiotemporal understanding based on the Chain-of-Thought (CoT) methodology, which comprises 192,000 fine-grained spatiotemporal question-answer pairs and 23,000 high-quality CoT-annotated samples. This dataset consists of three components: spatiotemporal localization and captioning, spatiotemporal localization, and spatiotemporal referencing. It is designed to evaluate spatiotemporal understanding in video comprehension, and support multimedia understanding and video analysis capabilities in intelligent systems.

提供机构：

中国科学院自动化研究所、中国科学院大学人工智能学院、清华大学深圳国际研究生院、北京智源人工智能研究院

创建时间：

2025-06-10

原始信息汇总

Video-CoT数据集概述

数据集基本信息

数据集名称: Video-CoT
开发团队:
- 中国科学院自动化研究所
- 北京智源人工智能研究院(BAAI)
- 清华大学深圳国际研究生院
- 北京大学计算机学院多媒体信息处理国家重点实验室
贡献者:
- 张书怡*, 郝晓辉*, 唐英博, 张凌峰, 王鹏伟, 王中元, 马红璇†, 张商豪†
- (*共同第一作者, †通讯作者)

数据集特点

核心创新: 采用思维链(Chain-of-Thought, CoT)方法增强视频时空理解
数据规模:
- 192,000个细粒度时空问答对
- 23,000个高质量CoT标注样本
基准测试:
- 包含750张图像
- 定制化评估指标

研究背景

现有问题: 大规模视觉语言模型(VLMs)难以捕捉视频分析所需的细微时空细节
解决方案: 通过Video-CoT数据集促进视频推理领域的探索

数据集构建

收集带有密集标注的视频数据
使用Qwen2.5-VL 72B模型生成问题解决思维过程和答案
筛选流程:
- 剔除低准确率答案
- 排除思维过程混乱的数据
保留数据作为CoT数据

实验结果

当前VLMs在细微时空理解任务上面临显著挑战
包含Ans-SFT和CoT-SFT的消融实验

搜集汇总

数据集介绍

构建方式

Video-CoT数据集的构建依托于多源公开视频数据集，采用两阶段处理流程实现高质量时空标注。研究团队首先整合了VTimeLLM-stage2、MSR-VTT等基准数据集的基础素材，通过帧级目标追踪算法提取连续出现超过2秒的物体轨迹信息，精确标注其初始、中间及终止时刻的空间坐标。针对时空关系推理任务，采用Qwen2.5-VL-72B-Instruct模型生成包含<think>推理链</think>的结构化标注，并设置任务特异性阈值筛选合格样本，最终形成包含19.2万细粒度问答对和2.3万CoT标注的高质量数据集。

特点

该数据集在时空维度展现出三大核心特征：多粒度任务覆盖性将视频理解分解为时空定位、基础描述和关系推理三大类共6个子任务；长短期视频均衡性包含从40秒短视频到160秒以上长视频的连续时长分布，支持模型学习不同时间跨度的推理能力；链式标注可解释性通过显式标注中间推理步骤，为模型提供人类思维过程的参考范式。特别设计的时空交并比(tIoU/sIoU)和语义匹配(MENTOR)等多维度评估指标，能全面衡量模型对视频中物体运动轨迹、事件时序和空间关系的理解深度。

使用方法

研究者可通过两种范式利用该数据集：答案监督微调(Ans-SFT)直接优化最终答案生成概率，适用于时空坐标回归等确定性任务；思维链监督微调(CoT-SFT)则通过分层损失函数同步优化推理步骤和答案生成，显著提升复杂推理任务的性能。基准测试集包含4500个独立样本，建议采用课程学习策略从简单时空定位逐步过渡到多跳关系推理。对于长视频理解任务，可结合记忆增强架构利用数据集中的长时程标注信息，开发具有持续跟踪能力的视频分析系统。

背景与挑战

背景概述

Video-CoT数据集由中国科学院自动化研究所与北京通用人工智能研究院（BAAI）等机构的研究团队于2025年提出，旨在解决视频内容理解中的时空细粒度推理难题。该数据集包含19.2万组时空问答对和2.3万条思维链标注样本，覆盖时空定位、时空关联推理等六项子任务，填补了现有视频数据集在时空协同标注方面的空白。其创新性地引入思维链（Chain-of-Thought）方法论，通过显式建模推理过程推动多模态大模型在视频分析领域的认知能力发展，为自动驾驶、智能监控等需要复杂时空推理的应用提供了基准平台。

当前挑战

在领域问题层面，Video-CoT需解决三大核心挑战：1) 长视频时序依赖建模，要求模型捕捉跨160秒以上的事件关联；2) 空间关系动态演化，如运动物体的相对位置持续变化；3) 多模态对齐难题，需精确匹配文本描述与视频帧的时空坐标。在构建过程中面临标注复杂性挑战：1) 高密度时空标注需人工标注每帧物体坐标及持续时间；2) 思维链质量控制，需通过双重筛选机制（自动阈值过滤+专家校验）确保23,000条推理链的逻辑严密性；3) 数据异构性处理，需整合来自MSR-VTT、VidSTG等6个源数据集的不同标注规范。

常用场景

经典使用场景

在视频内容理解领域，Video-CoT数据集通过其细粒度的时空标注和链式思维（CoT）注释，为模型提供了丰富的训练和评估资源。该数据集特别适用于时空定位、视频字幕生成以及时空关系推理等任务，能够有效支持模型在复杂视频场景中的多步推理能力。例如，在时空视频定位（STVG）任务中，模型需要根据文本查询精确追踪视频中物体的运动轨迹，这要求模型具备强大的时空推理能力。Video-CoT通过提供高质量的标注数据，为这类任务设定了新的基准。

解决学术问题

Video-CoT数据集解决了视频理解领域中的多个关键学术问题。首先，它填补了现有数据集在细粒度时空信息标注上的空白，使得模型能够更准确地捕捉视频中的时空细节。其次，通过引入链式思维（CoT）注释，数据集支持模型进行多步推理，从而提升了复杂视频场景下的理解能力。此外，数据集还提供了全面的评估基准，帮助研究者量化模型在时空推理任务上的表现，推动了视频理解技术的进一步发展。

衍生相关工作

Video-CoT数据集的发布催生了一系列相关研究工作。例如，基于该数据集的Qwen2.5-VL模型通过链式思维微调（CoT-SFT）方法，显著提升了时空推理性能。此外，数据集还启发了多模态检索系统的改进，使得视频与文本的跨模态检索更加精准。其他经典工作包括利用Video-CoT进行长视频理解研究，以及开发新型的时空关系推理模型，进一步推动了视频理解领域的技术创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集