Video-Com-Instruct-18K

github2025-12-01 更新2025-12-02 收录

下载链接：

https://github.com/mbzuai-oryx/Video-CoM

下载链接

链接失效反馈

官方服务：

资源简介：

Video-CoM-Instruct是一个为主动视觉推理设计的操作驱动数据集，包含18K个样本，通过三个阶段构建：筛选信息密集的视频以支持细粒度推理；生成需要重新访问片段、检查帧和空间缩放的操作目标问答对；提供密集的时间和空间注释以支持步骤级强化学习。每个示例遵循结构化推理格式，交替进行探索性推理、视觉操作（如查找片段、查找帧或空间缩放）和观察，以整合证据。

Video-CoM-Instruct is an operation-driven dataset tailored for active visual reasoning, consisting of 18K samples. It is constructed through three stages: first, screening information-dense videos to support fine-grained reasoning; second, generating operation-targeted question-answer pairs that require revisiting video segments, inspecting individual frames, and performing spatial zooming; third, providing dense temporal and spatial annotations to support step-level reinforcement learning. Each sample follows a structured reasoning format that alternates between exploratory reasoning, visual operations (such as locating segments, locating frames, or spatial zooming), and observation to integrate evidence.

创建时间：

2025-11-28

原始信息汇总

Video-CoM 数据集概述

数据集基本信息

数据集名称：Video-CoM-Instruct-18K
核心概念：一个为交互式视频推理设计的、基于操作链（Chain of Manipulations）的指令数据集。
数据规模：包含约 18K 个样本。

数据集构建目的

旨在支持模型进行交互式视频推理，使模型能够通过主动执行视觉操作来“伴随视频思考”，而非仅对静态视频编码进行推理。

数据集构建过程

数据集通过以下三个关键阶段构建：

视频筛选：策划信息密集、适合细粒度推理的视频。
问答对生成：生成针对操作的问答对，要求模型进行片段重访、帧检查和空间缩放。
密集标注：提供密集的时间和空间标注，以支持步骤级强化学习。

数据样本结构

每个数据样本遵循结构化的推理格式，交替进行以下环节：

探索性推理：模型推断哪个时刻或区域可能包含所需证据。
视觉操作：模型执行目标明确的操作以检索新的视觉输入，包括：
- 查找片段
- 查找关键帧
- 空间缩放
观察：模型解释新揭示的证据并将其整合到下一步推理中。

数据集特点与用途

核心特点：强调通过操作链进行主动的、迭代的视觉证据收集。
主要用途：用于训练和评估能够进行交互式视频推理的模型，特别是支持步骤级强化学习。
关联技术：为论文提出的“推理感知GRPO”训练方法提供基础，该方法利用数据集的密集标注提供步骤级奖励。

相关资源

论文链接：https://arxiv.org/abs/2511.23477
项目图标：https://i.imgur.com/waxVImv.png
介绍图：https://github.com/mbzuai-oryx/Video-CoM/raw/main/images/intro_figure.gif
数据集结构图：https://github.com/mbzuai-oryx/Video-CoM/raw/main/images/video_com_instruct_reasoning.png
训练方法图：https://github.com/mbzuai-oryx/Video-CoM/raw/main/images/video_com_ra_grpo.png
注意力可视化图：https://github.com/mbzuai-oryx/Video-CoM/raw/main/images/visual_attention.png

搜集汇总

数据集介绍

构建方式

在视频理解领域，构建高质量数据集是推动交互式推理研究的关键。Video-CoM-Instruct-18K数据集的构建过程经过精心设计，首先从信息密集的视频素材中筛选出适合细粒度推理的内容，确保视频本身蕴含丰富的视觉线索。随后，通过生成针对操作任务的问答对，这些问答要求模型执行片段重访、帧检视和空间缩放等交互动作，以引导主动的证据收集。最后，数据集提供了密集的时间和空间标注，为每一步推理操作提供精确的监督信号，从而支持基于步骤的强化学习训练。

特点

该数据集的核心特点在于其交互式推理框架，突破了传统视频编码的被动模式。通过引入操作链机制，模型能够在推理过程中动态地重看特定时刻、暂停关键帧并放大细节，实现证据的逐步积累。数据集的结构化格式将探索性推理、视觉操作和观察整合为连贯的流程，确保每一步都基于新获取的视觉输入。此外，密集的标注不仅支持最终答案的评估，还为中间步骤的正确性提供了反馈，增强了推理的可靠性和可解释性。

使用方法

使用Video-CoM-Instruct-18K数据集时，研究者可将其应用于训练交互式视频推理模型。数据集中的问答对和标注信息允许模型学习在推理轨迹中交替进行文本推断和视觉操作，例如通过find-segment、find-frame或spatial-zoom动作检索证据。结合推理感知的GRPO方法，模型能在每一步接收基于操作正确性的奖励，从而优化整体推理性能。该数据集适用于评估模型在多个视频理解基准上的表现，尤其擅长提升细粒度、操作驱动的推理任务。

背景与挑战

背景概述

随着视频理解技术的深入发展，传统模型通常依赖静态的视频编码进行推理，难以应对复杂场景中细粒度信息的动态捕捉需求。在此背景下，Video-CoM-Instruct-18K数据集应运而生，由MBZUAI、加州大学默塞德分校、谷歌研究院等机构的科研团队于2025年共同创建。该数据集旨在推动交互式视频推理研究，其核心研究问题在于如何使模型能够通过一系列主动的视觉操作（如片段查找、帧选择与空间缩放）来逐步收集证据，从而实现更精准、可解释的视频内容理解。这一创新范式不仅突破了被动编码的局限，也为视频推理领域引入了链式操作的新方法论，对提升模型在时序与空间维度上的推理能力具有重要影响力。

当前挑战

Video-CoM-Instruct-18K数据集所针对的领域问题是交互式视频推理，其核心挑战在于如何设计有效的机制，使模型能够动态地聚焦于视频中的关键时空区域，而非依赖单一静态表示进行整体推断。具体而言，构建过程中面临多重挑战：首先，需精心筛选信息密集的视频素材，确保其支持细粒度推理任务；其次，生成高质量的问答对需紧密结合操作目标，要求模型在推理链中执行分段重访、帧检视与空间缩放等动作；最后，为实现步骤级强化学习，必须提供密集的时空标注，这涉及大量人工与计算资源的投入，且需保证标注的精确性与一致性，以支撑模型在每一步操作中获得可靠的视觉反馈。

常用场景

经典使用场景

在视频理解与推理领域，Video-Com-Instruct-18K数据集为交互式视觉推理提供了关键支撑。该数据集通过精心设计的链式操作机制，引导模型在推理过程中主动执行片段查找、帧选择与空间缩放等视觉动作，从而实现对视频内容的动态探索与证据收集。这一范式突破了传统静态编码的局限，使得模型能够像人类一样，在分析复杂视频场景时，通过反复观察特定时刻、暂停关键帧或放大细节来逐步构建理解，尤其适用于需要细粒度时空推理的任务，如事件因果分析、动作意图推断或多对象交互理解。

衍生相关工作

围绕Video-Com-Instruct-18K数据集，已衍生出多项经典研究工作，进一步拓展了交互式视频推理的边界。其核心框架Video-CoM提出了链式操作机制，为后续研究提供了基础架构；而推理感知的RA-GRPO训练方法，利用数据集的密集标注实现步骤级奖励，推动了强化学习在视觉推理中的细粒度应用。这些工作共同促进了视频语言模型从被动理解向主动探索的范式转变，并启发了更多关注动态视觉交互、多模态推理可解释性以及长视频时序建模的研究方向，为领域发展注入了新的活力。

数据集最近研究