Video-ToC-SFT-1k; Video-ToC-RL-2k

Name: Video-ToC-SFT-1k; Video-ToC-RL-2k
Creator: 哈尔滨工业大学
Published: 2026-04-22 20:02:24
License: 暂无描述

arXiv2026-04-22 更新2026-04-24 收录

下载链接：

https://github.com/qizhongtan/Video-ToC

下载链接

链接失效反馈

官方服务：

资源简介：

Video-ToC数据集由哈尔滨工业大学团队构建，包含用于视频理解的两部分数据：1k条监督微调样本和2k条强化学习样本。该数据集基于树状视频片段结构构建，每个叶节点对应独立视频片段的内容，通过大语言模型生成层次化推理轨迹标注。数据源自LLaVA-Video-178K数据集的重构，采用Qwen2.5-VL-7B和Llama-3.3-70B模型进行自动标注。该数据集旨在解决视频大语言模型在复杂时空推理任务中的幻觉问题，提升细粒度视觉线索定位能力，适用于视频问答和时空推理等场景。

The Video-ToC dataset was constructed by a team from Harbin Institute of Technology. It includes two subsets for video understanding: 1,000 supervised fine-tuning samples and 2,000 reinforcement learning samples. Built upon a tree-structured video segment framework, each leaf node in this dataset corresponds to the content of an independent video segment, with hierarchical reasoning trajectory annotations generated by large language models (LLMs). The dataset is reconstructed from the LLaVA-Video-178K dataset, and automatic annotations are generated using the Qwen2.5-VL-7B and Llama-3.3-70B models. This dataset aims to mitigate the hallucination issue of video large language models in complex spatiotemporal reasoning tasks, improve their ability to localize fine-grained visual cues, and is applicable to scenarios including video question answering and spatiotemporal reasoning.

提供机构：

哈尔滨工业大学

创建时间：

2026-04-22

原始信息汇总

数据集概述：Video-ToC

数据集简介

Video-ToC（Video Tree-of-Cue Reasoning）是一个面向视频理解与推理的数据集，旨在通过树状线索推理（Tree-of-Cue Reasoning）增强视频大语言模型（Video LLMs）的复杂视频理解能力，减少推理幻觉。

核心特性

树引导视觉线索定位：通过结构化推理模式赋予模型精细的感知能力。
推理需求奖励机制：基于推理需求估计动态调整强化学习（RL）奖励值，实现按需激励。
自动化标注管线：自动构建用于监督微调（SFT）和强化学习（RL）训练的数据集。

数据集构成

该数据集包含两个子集：

Video-ToC-SFT-1k：用于监督微调（SFT），包含约1000个样本。
Video-ToC-RL-2k：用于强化学习（RL）训练，包含约2000个样本。

数据来源

训练视频数据来源于 LLaVA-Video-178K 的一个子集。

数据获取

训练数据：可通过 Hugging Face 数据集页面下载。
模型权重：
- Video-ToC 模型：https://huggingface.co/Albertzz888/Video-ToC
- Video-ToC-SFT 模型：https://huggingface.co/Albertzz888/Video-ToC-SFT

基准评测

数据集在以下六个视频理解基准和一个视频幻觉基准上进行了评估：

六项视频理解基准
一项视频幻觉基准

依赖与框架

监督微调（SFT） 基于 LlamaFactory
强化学习（RL） 基于 EasyR1
评估部分 基于 Video-R1

使用说明

安装：使用 conda create -n Video-ToC python=3.11 -y 创建环境并运行 ./install.sh。
数据准备：
- 使用 ./download.sh 下载 Qwen2.5-VL-7B-Instruct 及六个数据集。
- 解压数据集，根据 Evaluation/eval_*.json 文件中指定的 "path" 将视频放入对应文件夹。
- 下载训练视频到 data/video 文件夹。
训练与评估：
- 监督微调：运行 ./sft.sh
- 强化学习：运行 ./grpo.sh
- 评估：运行 ./eval.sh

引用格式

bibtex @article{tan2026video, title={Video-ToC: Video Tree-of-Cue Reasoning}, author={Tan, Qizhong and Tian, Zhuotao and Lu, Guangming and Yu, Jun and Pei, Wenjie}, journal={arXiv preprint arXiv:2604.20473}, year={2026} }

搜集汇总

数据集介绍

构建方式

在视频理解领域，现有的大语言模型常因缺乏对输入视频内容的感知适应性而产生幻觉。为此，Video-ToC框架通过一种新颖的树引导视觉线索定位机制来构建数据集。具体而言，首先将输入视频分割为多个语义相关的片段，利用多模态大语言模型生成每个片段的详细描述，并基于问题-答案对筛选关键片段，进而构建一棵以整个视频为根节点、各片段为叶子节点的段树。随后，通过从关键叶子节点回溯至根节点的路径生成推理轨迹，将轨迹中的每一层视频编译去重后，交由大语言模型总结为逐步定位的视频线索描述，最终与问题-答案对共同构成Video-ToC-SFT-1k数据集，用于监督微调。而Video-ToC-RL-2k数据集则通过评估问题的推理需求难度（即模型无推理直接回答的错误率）来标注每个样本的推理需求，用于后续的强化学习训练。

特点

Video-ToC-SFT-1k与Video-ToC-RL-2k数据集的显著特点在于其结构化、渐进式的推理模式。前者的推理轨迹从粗粒度的全局视频逐步细化为关键片段，使模型学会在分析问题时细致检查视频中的细粒度时空线索，从而有效缓解幻觉并提升对精细感知任务的应对能力。后者则创新性地引入了推理需求驱动奖励机制，根据问题本身的推理复杂度动态调整奖励值——对于高度依赖推理的问题给予更高激励，而对仅需感知的问题则适度降低奖励，引导模型自适应地决定是否进行深度推理，避免了不必要的过度思考。此外，两个数据集的高质量通过自动筛选和过滤步骤得以保证，且规模精炼（仅1k和2k样本），兼具高效性与效能。

使用方法

使用这两个数据集时，遵循两阶段训练流程。首先，利用Video-ToC-SFT-1k数据集对基础视频大语言模型（如Qwen2.5-VL-7B）进行一个epoch的监督微调，作为冷启动阶段，使模型习得基于树引导的逐步定位推理风格。随后，在Video-ToC-RL-2k数据集上采用GRPO算法结合所提出的推理需求奖励进行一个epoch的强化学习训练，进一步优化模型的推理策略。训练过程中，视频统一采用16帧均匀采样，每帧分辨率限制为128×28×28，并使用Adam优化器与5e-7的学习率。推理时则可根据需要增加输入帧数（如32或64帧），并提升分辨率至256×28×28。模型被要求将定位过程置于<locate>标签内，最终答案置于<answer>标签内，以适应多种问题类型（如选择题、数值回归题）。

背景与挑战

背景概述

在视频大语言模型（Video LLMs）领域，尽管现有模型在感知型视频理解任务上取得了显著进展，但其复杂推理能力依然薄弱，尤其在面对需要细致时空感知的问题时，常因缺乏对视频内容的感知适应而产生幻觉。为突破这一瓶颈，哈尔滨工业大学（深圳）的研究团队于2025年提出了Video-ToC框架，其核心创新在于引入树引导的视觉线索定位机制与基于推理需求的动态奖励策略。该研究基于LLaVA-Video-178K数据集，通过自动化标注流程构建了两个针对性数据集：Video-ToC-SFT-1k（用于监督微调冷启动）和Video-ToC-RL-2k（用于强化学习训练）。该数据集不仅在VSI-Bench、VideoMMU等六个视频理解基准和VideoHallucer幻觉基准上全面超越了现有方法，更为视频推理领域提供了高效、可复现的训练范式，对推动多模态推理的精细化研究具有重要影响力。

当前挑战

当前视频推理面临的核心挑战在于：一方面，现有方法如Video-R1依赖强模型自由生成推理链条，导致小模型（如Qwen2.5-VL-7B）因自身时空感知能力不足而倾向于依赖先验语言知识而非视频语义，加剧了幻觉风险。另一方面，传统强化学习奖励函数采用二元制（正确/错误），未能区分问题对推理的实际需求，导致模型在简单感知问题上过度思考、在复杂推理问题上激励不足。此外，数据集构建过程中面临三大技术难题：如何在视频片段语义相关性基础上构建层次化树结构以形成渐进式定位轨迹；如何通过LLM自动筛选关键片段并生成自然连贯的推理步骤；以及如何在RL阶段设计能动态调整的推理需求奖励，避免因难度过低或过高导致的梯度失效。这些挑战共同制约着视频推理模型向更精准、更泛化的方向发展。

常用场景

经典使用场景

在视频理解领域，Video-ToC-SFT-1k与Video-ToC-RL-2k数据集最为经典的使用场景在于训练视频大语言模型（Video LLMs）执行精细化的时空推理任务。具体而言，研究者利用这些数据集引导模型遵循树状线索定位机制，逐步从全局视频内容中聚焦到关键视觉片段，从而实现对复杂视觉信息的结构化解析。这种范式尤其适用于那些需要模型从长视频中捕捉细微动态变化或空间关系的高难度问答场景，例如判断视频中人物行为的具体位置、识别物件品牌或解读图表中的算法逻辑。通过在这两个数据集上分别进行监督微调与强化学习，模型能够习得一种渐进式的视觉感知策略，显著提升其在推理密集型任务上的表现。

实际应用

在现实应用层面，这两个数据集所赋能的技术可直接部署于需要高阶视频理解的场景。例如在智能安防系统中，模型能够通过逐步定位关键帧来精准识别监控视频中的异常行为；在自动驾驶领域，车辆可以利用该推理框架从路侧视频中解析复杂交通标志与行人的时空关系；在影视内容检索与编辑工具中，该技术可帮助用户快速定位特定人物或事件的精确时间戳。此外，在教育与培训领域，基于这些数据集训练的模型能够自动解析教学视频中的演示步骤与关键知识点，生成结构化的学习摘要与问答反馈，从而提升在线教育的交互性与效率。这些应用充分展现了从精细视觉定位到高层语义推理的完整链条在实际场景中的强大潜力。

衍生相关工作

围绕Video-ToC-SFT-1k与Video-ToC-RL-2k数据集，学术界已衍生出一系列富有影响力的后续研究。其中之一是探索树状推理结构在图像-视频混合推理任务中的拓展，研究者尝试将该树状线索定位思想迁移至多模态场景描述生成中，以增强模型对跨模态语义对齐的感知能力。此外，基于推理需求奖励机制的改进版本也被应用于时间动作定位与视频摘要生成任务，通过动态调节奖励幅度实现对不同难度样本的差异化激励。另一个重要方向是将这两个数据集所代表的二阶段训练范式（SFT与RL）推广至更广泛的视频理解模型，例如通过引入更复杂的树形结构如平衡二叉树或多叉树来提升推理轨迹的多样性与覆盖率。这些衍生工作不仅验证了原始数据集设计的有效性，也进一步推动了视频推理领域的方法论创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集