CoF-Data
收藏github2025-06-04 更新2025-06-10 收录
下载链接:
https://github.com/SaraGhazanfari/CoF
下载链接
链接失效反馈官方服务:
资源简介:
我们首先创建了一个大型数据集,包含多样的问题、答案和推理痕迹,并参考了自然和合成视频中的帧ID。然后,我们在这个链式帧数据(CoF-Data)上微调现有的视频LLMs。我们的方法简单且自包含,与现有的视频CoT方法不同,不需要辅助网络或复杂的推理管道。
We initially constructed a large dataset encompassing a variety of questions, answers, and reasoning traces, referencing frame IDs from both natural and synthetic videos. Subsequently, we fine-tuned existing video LLMs on this Chain-of-Frames data (CoF-Data). Our approach is straightforward and self-contained, differing from existing video CoT methods as it does not require auxiliary networks or complex reasoning pipelines.
创建时间:
2025-05-23
原始信息汇总
Chain-of-Frames 数据集概述
数据集简介
- 名称:Chain-of-Frames (CoF)
- 目的:通过帧感知推理提升多模态LLM在视频理解中的性能
- 方法:创建包含多样化问题、答案和推理轨迹的大规模数据集,明确引用相关帧ID
数据内容
- 数据类型:视频注释数据
- 数据特点:
- 包含自然视频和合成视频的帧引用
- 提供问题、答案和推理轨迹
- 数据文件:video annotations
模型检查点
快速开始
- 模型加载:使用Hugging Face的AutoModel和AutoTokenizer
- 评估脚本:
bash scripts/eval/eval.sh
引用
bibtex @article{ghazanfari2025chainofframes, title={Chain-of-Frames: Advancing Video Understanding in Multimodal LLMs via Frame-Aware Reasoning}, author={Sara Ghazanfari and Francesco Croce and Nicolas Flammarion and Prashanth Krishnamurthy and Farshad Khorrami and Siddharth Garg}, year={2025}, journal={arXiv preprint arxiv:2506.00318} }
搜集汇总
数据集介绍

构建方式
在视频理解领域,CoF-Data通过创新的框架感知推理方法构建而成。研究团队首先收集了来自自然和合成视频的多样化问题与答案,并精心设计了包含帧ID引用的推理轨迹。数据生成过程采用系统化流程,通过自动化标注与人工校验相结合的方式,确保每个问题都能精准关联到视频中的关键帧。这种构建方式不仅丰富了视频语义理解的维度,还为模型训练提供了可靠的监督信号。
特点
该数据集最显著的特点在于其框架感知的链式推理结构。每个样本都包含明确的帧级引用,使模型能够建立问题与视频内容之间的细粒度关联。数据集涵盖广泛的视频类型和问题类别,既包含自然场景的真实视频,也包含合成生成的模拟场景。这种多样性确保了模型训练过程中的泛化能力,同时精心设计的推理轨迹为可解释性研究提供了理想素材。
使用方法
使用该数据集时,研究人员可将其直接应用于视频多模态大模型的微调过程。数据集采用标准化的JSONL格式存储,便于与主流深度学习框架集成。加载流程遵循InternVL代码库的规范,支持通过Hugging Face接口快速载入预训练模型。评估阶段提供标准化的测试脚本,支持在多种视频理解基准上进行性能验证,确保研究结果的可比性和可复现性。
背景与挑战
背景概述
Chain-of-Frames (CoF) 数据集由Sara Ghazanfari等研究人员于2025年提出,旨在推动多模态大语言模型在视频理解领域的发展。该数据集通过构建包含多样化问题、答案及推理轨迹的标注数据,明确将推理步骤与视频帧相关联,从而增强模型对视频内容的深层理解能力。基于InternVL开源框架,研究团队开发了CoF-InternVL2.5-4B和CoF-InternVL3-8B模型,在多项基准测试中展现出超越基线方法的性能表现,其创新性在于无需依赖辅助网络或复杂推理流程即可实现可解释的帧感知推理。
当前挑战
视频理解领域长期面临时序信息建模与关键帧定位的双重挑战。传统方法难以准确捕捉长视频中跨帧的语义关联,而CoF数据集通过显式标注问题答案与帧ID的映射关系,试图解决这一核心难题。在数据构建过程中,研究团队需平衡自然视频与合成视频的样本分布,确保问题类型的多样性覆盖动作识别、事件推理等子任务。同时,标注过程中精确对齐文本推理轨迹与视觉帧序列的时序关系,对标注一致性与完整性提出了极高要求。
常用场景
经典使用场景
在视频理解领域,Chain-of-Frames (CoF) 数据集通过提供包含多样化问题、答案及基于帧ID的推理轨迹的标注数据,为多模态大语言模型(LLMs)的视频理解能力提供了强有力的支持。该数据集特别适用于需要模型在推理过程中明确引用关键帧的场景,例如视频问答(Video QA)和视频内容理解任务。通过CoF-Data,模型能够生成可解释的推理轨迹,显著提升了对视频时序信息的捕捉能力。
实际应用
在实际应用中,CoF-Data及其衍生模型(如CoF-InternVL2.5-4B和CoF-InternVL3-8B)可广泛应用于智能视频分析、安防监控、自动驾驶等领域。例如,在安防监控中,模型能够通过引用关键帧快速定位异常事件;在教育领域,视频问答系统可基于CoF技术为学生提供更精准的学习内容解析。其帧感知推理能力为多模态交互场景提供了高效解决方案。
衍生相关工作
CoF-Data的提出催生了一系列围绕视频多模态理解的研究工作。例如,基于CoF微调的InternVL系列模型在多个视频理解基准上取得了显著提升,相关技术已被扩展至视频摘要、动作识别等任务。此外,CoF的帧感知推理框架也为后续研究(如视频时序关系建模、多模态对齐)提供了重要参考,推动了视频LLMs领域的快速发展。
以上内容由遇见数据集搜集并总结生成



