Video-CoM-Instruct

Name: Video-CoM-Instruct
Creator: 穆罕默德·本·扎耶德人工智能大学、加利福尼亚大学默塞德分校、谷歌研究院、林雪平大学、澳大利亚国立大学
Published: 2025-11-29 02:59:57
License: 暂无描述

arXiv2025-11-29 更新2025-12-02 收录

下载链接：

https://github.com/mbzuai-oryx/Video-CoM

下载链接

链接失效反馈

官方服务：

资源简介：

Video-CoM-Instruct是由穆罕默德·本·扎耶德人工智能大学等机构联合构建的指令微调数据集，旨在支持交互式视频推理任务。该数据集规模为18K条高质量样本，每条数据包含针对视频内容的多步骤推理问题与答案，数据源自现有视频理解数据集及人工精选的密集信息视频片段。其构建过程通过精心设计的流水线完成，包括视频筛选、操作链设计、基于大模型的数据生成与验证等环节，确保了数据在时空维度上的多样性与复杂性。该数据集主要应用于训练多模态大语言模型进行主动感知推理，通过链式操作机制解决传统视频理解中因静态编码导致的语义瓶颈问题，提升模型在细粒度时空理解任务上的性能。

Video-CoM-Instruct is an instruction-tuning dataset jointly constructed by Mohammed bin Zayed University of Artificial Intelligence and other institutions, aimed at supporting interactive video reasoning tasks. This dataset consists of 18K high-quality samples, each containing multi-step reasoning questions and answers targeting video content, sourced from existing video understanding datasets and manually curated information-dense video clips. Its construction follows a meticulously designed pipeline, including video screening, operation chain design, large model-based data generation and validation, and other steps, which ensures the diversity and complexity of the data in both spatial and temporal dimensions. This dataset is primarily applied to train multimodal large language models for active perceptual reasoning, addressing the semantic bottleneck caused by static encoding in traditional video understanding via a chain-like operation mechanism, and improving the model's performance on fine-grained spatial-temporal understanding tasks.

提供机构：

穆罕默德·本·扎耶德人工智能大学、加利福尼亚大学默塞德分校、谷歌研究院、林雪平大学、澳大利亚国立大学

创建时间：

2025-11-29

原始信息汇总

Video-CoM 数据集概述

数据集基本信息

数据集名称: Video-CoM-Instruct-18K
核心内容: 一个为交互式视频推理设计的、包含密集标注的指令数据集。
数据规模: 包含约 18,000 个样本。

数据集构建与特点

构建过程:
1. 筛选信息密集、适合细粒度推理的视频。
2. 生成需要重新观看片段、检查帧和空间缩放等操作的针对性问答对。
3. 提供密集的时间和空间标注，以支持步骤级强化学习。
核心特点: 每个样本遵循结构化的推理格式，交替进行探索性推理、视觉操作（如查找片段、查找帧、空间缩放）和观察整合新证据。

数据集用途与目标

设计目标: 专门用于支持主动的、交互式的视觉推理。
核心应用: 训练和评估模型执行“操作链”的能力，即通过迭代的视觉操作（片段查找、帧选择、空间缩放）在推理过程中主动收集证据。

相关资源

论文标题: Video-CoM: Interactive Video Reasoning via Chain of Manipulations
论文链接: https://arxiv.org/abs/2511.23477
引用格式: bibtex @article{rasheed2025videocom, title={Video-CoM: Interactive Video Reasoning via Chain of Manipulations}, author={Rasheed, Hanoona and Zumri, Mohammed and Maaz, Muhammad and Yang, Ming-Hsuan and Khan, Fahad S. and Khan, Salman}, journal={arXiv preprint arXiv:2511.23477}, year={2025} }

搜集汇总

数据集介绍

构建方式

Video-CoM-Instruct数据集的构建过程体现了对交互式视频推理需求的深刻理解。其构建始于从现有大规模视频数据集中筛选信息密度高的视频片段，并辅以人工精选的复杂场景视频，确保数据源兼具多样性与挑战性。随后，研究团队定义了三种核心的原子操作：查找片段、定位关键帧和空间缩放，以此为基础设计出多步骤的推理轨迹。利用先进的多模态大语言模型，针对每个视频生成需要特定操作链才能解答的问题-答案对，并通过双重格式验证与模型一致性过滤机制，严格把控数据质量。最终，数据集包含18K个高质量样本，其中3K个样本进一步标注了密集的时空信息，以支持后续的强化学习优化。

使用方法

Video-CoM-Instruct数据集主要用于训练和优化具备交互式推理能力的多模态大语言模型。在训练的第一阶段，数据集中的15K样本用于监督式微调，教导模型如何根据问题执行相应的操作链来获取视觉证据。在第二阶段，专门标注了密集时空信息的3K GRPO子集则用于基于强化学习的策略优化。在此阶段，模型不仅依据最终答案的正确性获得奖励，更通过步骤级的推理奖励机制，评估其每一步视觉操作（如定位的片段、帧或区域）的准确性，从而引导模型生成既正确又具有坚实视觉依据的推理轨迹，最终实现“与视频一同思考”的主动推理范式。

背景与挑战

背景概述

Video-CoM-Instruct数据集由穆罕默德·本·扎耶德人工智能大学等机构的研究团队于2025年提出，旨在推动交互式视频推理范式的发展。该数据集的核心研究问题是解决现有多模态大语言模型在视频理解中存在的语义瓶颈，即模型通常将视频编码为静态特征后仅在文本空间进行推理，无法像人类一样主动地回看、聚焦或验证视觉证据。通过构建一个包含1.8万条高质量指令微调样本的数据集，Video-CoM-Instruct为模型学习基于操作链的推理提供了必要监督，显著提升了模型在需要细粒度时空理解任务上的性能，对视频推理领域从被动理解转向主动交互产生了深远影响。

当前挑战

Video-CoM-Instruct数据集致力于解决交互式视频推理这一领域核心挑战，即如何使模型能够“伴随视频思考”，通过执行查找片段、定位关键帧和空间缩放等原子操作，主动搜集并整合时空证据以完成复杂推理。在构建过程中，研究团队面临多重挑战：首先，现有视频理解数据集大多关注全局理解，缺乏驱动模型进行主动视觉交互的样本，需从零构建要求多步操作推理的高质量指令数据；其次，视频中的空间定位（尤其是针对文本或细小物体）准确性不足，现有模型难以可靠地生成空间标注，迫使研究依赖人工标注以确保强化学习阶段奖励计算的可靠性；此外，寻找信息密度高、场景多样且包含短暂事件或精细细节的视频源本身具有难度，限制了数据规模的快速扩展。

常用场景

经典使用场景

在视频理解领域，传统多模态大语言模型通常采用静态编码范式，将视频压缩为单一特征表示后仅在文本空间进行推理，这导致模型难以处理需要细粒度时空理解的复杂任务。Video-CoM-Instruct数据集通过引入交互式视频推理新范式，专门用于训练模型执行链式操作推理。该数据集最经典的使用场景是支持模型在回答涉及时空细节的问题时，能够主动执行查找片段、定位关键帧和空间缩放等视觉操作，从而模仿人类观看视频时暂停、回放和聚焦的认知行为，实现对视频内容的动态探索与证据收集。

解决学术问题

该数据集主要解决了视频推理中存在的语义瓶颈问题。传统方法将视觉输入视为静态上下文，模型无法在推理过程中重新审视或验证证据，导致推理过程缺乏视觉基础，容易漂移至先验知识而非实际视频内容。Video-CoM-Instruct通过提供包含多步操作链的指令调优数据，引导模型学习在推理中主动与视频交互，从而支撑对需要精确时空定位、细粒度细节识别和多步证据整合的复杂问题的研究。其意义在于推动了视频理解从‘关于视频的思考’向‘利用视频思考’的范式转变，为构建更具解释性和可靠性的视频推理模型奠定了数据基础。

实际应用

在实际应用层面，Video-CoM-Instruct所支撑的交互式视频推理能力，在多个现实场景中展现出重要价值。例如，在视频内容审核中，模型可以定位并放大审查特定帧中的微小违规文字或标识；在教育视频分析中，能够回放特定片段以理解连续的动作步骤；在安防监控中，可通过对关键帧的缩放来识别远处的人脸或车牌信息。这些应用均依赖于模型主动执行时空操作以提取局部证据的能力，超越了传统整体视频描述或问答的范畴，为实现更精准、可追溯的视频内容分析与决策提供了技术路径。

数据集最近研究