Outside Knowledge Conversational Video (OKCV) Dataset
收藏arXiv2025-06-12 更新2025-06-13 收录
下载链接:
https://github.com/cpatsch/OKCV
下载链接
链接失效反馈官方服务:
资源简介:
OKCV数据集是一个包含2017个视频和5986个人工注释对话的数据集,每个对话包含40954个交错对话轮次。数据集要求模型不仅识别视频中的相关视觉细节,还要利用外部知识来回答问题。数据集的对话背景基于特定视频片段,但问题进一步要求外部知识,这些知识在视觉信息中不一定存在。因此,模型不仅要识别相关的视频部分,还要利用外部知识进行对话。该数据集旨在测试视频语言模型在时空、事实和常识推理以及对话管理技能方面的能力,并促进自然语言处理领域的发展。
The OKCV Dataset is a collection comprising 2017 videos and 5986 manually annotated dialogues, with each dialogue containing 40,954 interleaved conversation turns. This dataset requires models to not only identify relevant visual details from the videos, but also leverage external knowledge to answer questions. The conversational context of the dataset is rooted in specific video clips, yet the questions additionally require external knowledge that may not be present in the provided visual information. Accordingly, models must not only pinpoint relevant video segments, but also utilize external knowledge to engage in coherent conversations. This dataset is designed to evaluate the capabilities of video-language models across spatio-temporal, factual, and commonsense reasoning, as well as conversation management skills, and advance the development of the natural language processing field.
提供机构:
乔治亚理工学院和慕尼黑工业大学
创建时间:
2025-06-12
搜集汇总
数据集介绍

构建方式
Outside Knowledge Conversational Video (OKCV) Dataset的构建过程体现了多模态数据集设计的前沿理念。研究团队采用三级递进式构建策略:首先基于QuerYD视频数据集筛选2,017段30秒至10分钟的视频素材,确保内容多样性与处理可行性;继而运用GPT-4的top-down生成策略,通过视频转录本自动生成需外部知识支撑的复合问题,并分解为语义连贯的子问题链;最终由英语母语标注者完成对话标注,同步收集时间戳证书和知识来源,形成包含5,986组对话(总计40,954轮次)的立体化数据集。这种半自动化构建范式有效平衡了数据规模与标注质量,其中GPT-4生成问题与人工完善回答的协同机制尤为创新。
特点
OKCV数据集在三个维度实现突破性特征:时空感知方面,要求模型同时处理视频空间特征与时间演化,平均42.3秒的时间戳证书验证了跨帧理解的必要性;知识融合层面,57.93%的问题必须结合视觉内容与外部知识解答,形成视觉-知识双通道推理挑战;对话架构上,采用语义分解式问题链设计,平均6.8轮次的对话深度远超传统单轮VQA任务。数据集词汇量达17,462词项,覆盖烹饪、科技等多元领域,其对话依赖性与知识密集性为测试模型的持续推理能力提供了理想基准。
使用方法
使用OKCV数据集需建立多阶段处理流程:预处理阶段应对视频进行时空特征提取,可采用Clip4Clip等视频编码器;对话管理模块需集成视觉感知(如mPLUG-2生成视频描述)、知识检索(基于Wikidata等知识库)和上下文建模三重能力;评估时推荐组合Bleurt、BartScore和Prometheus-2多指标体系,兼顾语义匹配度与对话流畅性。实验表明,Gemini-1.5-pro在零样本设置下Bleurt得分达0.98,而微调后的Llama2-7B在知识增强条件下表现最优,这为后续研究提供了明确的优化方向。
背景与挑战
背景概述
Outside Knowledge Conversational Video (OKCV) Dataset由乔治亚理工学院和慕尼黑工业大学的研究团队于2025年6月提出,旨在扩展基于外部知识的视觉问答(OK-VQA)任务至视频对话场景。该数据集包含2,017个视频和5,986段人工标注的对话,共计40,954个对话轮次,要求模型不仅理解视频中的时空信息,还需结合外部知识进行多轮对话。OKCV的提出填补了视频理解、外部知识整合与对话推理相结合的研究空白,为多模态模型在复杂对话场景中的性能评估提供了重要基准。
当前挑战
OKCV数据集面临的核心挑战包括:1) 领域问题挑战:模型需同时处理视频时空信息识别、外部知识检索与对话上下文管理三重任务,现有视觉语言模型在此多维推理任务中表现不足;2) 构建过程挑战:为确保对话质量,需设计分层提问策略(自上而下分解复杂问题),并通过混合生成(GPT-4初稿)与人工校验的方式平衡数据规模与标注成本,同时处理视频片段选择与知识可信度验证等技术难题。
常用场景
经典使用场景
Outside Knowledge Conversational Video (OKCV) Dataset 在视觉问答(VQA)领域中被广泛用于测试模型在视频理解、外部知识检索和对话管理方面的综合能力。其经典使用场景包括模型需要识别视频中的关键视觉信息,并结合外部知识库(如Wikipedia或Wikidata)来回答那些仅凭视频内容无法解决的问题。例如,在对话中,模型可能需要回答关于视频中出现的食物的营养成分或制作步骤,这需要模型不仅理解视频内容,还能从外部知识库中检索相关信息。
实际应用
在实际应用中,OKCV数据集可以用于开发智能助手和对话系统,这些系统能够理解视频内容并进行自然对话。例如,在教育领域,它可以用于开发能够回答学生关于教学视频中复杂问题的智能辅导系统。在娱乐行业,它可以用于增强视频平台的交互性,允许用户通过对话获取更多关于视频内容的背景信息。此外,该数据集还可以用于训练医疗诊断辅助系统,帮助医生通过视频对话获取患者的相关医疗知识。
衍生相关工作
OKCV数据集衍生了许多相关的研究工作,特别是在知识增强的视觉问答和视频对话系统领域。例如,基于该数据集的研究提出了多种模型架构,如结合视觉语言模型(如Video-Llama)和大型语言模型(如GPT-4)的混合系统。此外,该数据集还启发了新的评估方法,如使用Bleurt和Prometheus-2等自动化指标来评估对话系统的语义准确性。这些工作进一步推动了多模态理解和知识增强对话系统的发展。
以上内容由遇见数据集搜集并总结生成



