five

PKG-VQA

收藏
arXiv2025-03-19 更新2025-03-21 收录
下载链接:
https://github.com/LUNAProject22/KML
下载链接
链接失效反馈
官方服务:
资源简介:
PKG-VQA数据集是由新加坡高性能计算研究所和新加坡前沿人工智能研究中心创建的,包含多个选择问题,每个问题都包含一个视频片段、一个问题以及五个选项,其中一个为正确答案。该数据集旨在评估模型利用程序性知识进行回答的能力,涵盖了17种程序性知识问题类型,包括单跳和多跳问题,以及需要推理方法如演绎、概率、情境、因果和反事实推理。数据集的构建利用了Procedural Knowledge Graph (PKG),其中包含了关于步骤、任务和它们之间关系的实例。
提供机构:
新加坡高性能计算研究所,新加坡前沿人工智能研究中心
创建时间:
2025-03-19
搜集汇总
数据集介绍
main_image_url
构建方式
PKG-VQA数据集的构建基于一个程序知识图谱(PKG),该图谱捕捉了视频中步骤之间的时间关系和因果联系。数据集的构建过程包括从COIN数据集中提取注释,结合ConceptNet的外部知识,并通过大型语言模型(如GPT-4o)生成额外的数据。具体步骤包括定义知识图谱的模式(PKGS),并通过Cypher查询从PKG中检索相关信息以生成多选问题。每个问题类型都有预定义的模板,并通过GPT-4o生成多种变体,以确保问题的多样性。
特点
PKG-VQA数据集的特点在于其复杂的推理需求,涵盖了17种基于知识的推理问题类型,包括单跳、多跳、演绎、概率、上下文、因果和反事实推理。数据集要求模型不仅识别视频中的视觉实体,还需要生成假设并进行复杂的推理。此外,数据集还提供了少量的few-shot示例,以评估模型在零样本和少样本情况下的表现。每个问题都附带一个Cypher查询,用于从PKG中检索相关信息,确保答案的生成过程透明且可解释。
使用方法
PKG-VQA数据集的使用方法包括通过视频片段和多选问题评估模型的推理能力。模型需要从视频内容中提取相关信息,并结合程序知识图谱中的知识来回答问题。数据集提供了few-shot示例和验证集,支持模型的零样本和少样本学习。此外,数据集还支持通过Cypher查询从PKG中检索信息,帮助模型生成答案。通过这种方式,模型可以在复杂的推理任务中表现出色,尤其是在需要结合视觉和知识进行推理的场景中。
背景与挑战
背景概述
PKG-VQA数据集由新加坡高性能计算研究所和前沿人工智能研究中心的研究团队于2025年提出,旨在推动视频问答(VQA)领域的发展,特别是针对程序性知识的复杂推理任务。该数据集通过结合神经符号推理模块,要求模型不仅识别视频中的视觉实体,还需生成假设并进行上下文、因果和反事实推理。PKG-VQA的构建基于程序性知识图谱(PKG),该图谱捕捉了任务步骤之间的时间关系和因果链接,涵盖了17种基于知识的推理问题类型,如多跳推理、演绎推理、概率推理等。该数据集的推出填补了现有视频问答基准在程序性知识推理方面的空白,为视频理解、知识驱动推理和可解释AI的结合提供了新的研究方向。
当前挑战
PKG-VQA数据集面临的挑战主要体现在两个方面。首先,在领域问题方面,模型需要从视频内容和程序性知识中提取信息,回答涉及复杂推理的问题,如多跳推理和反事实推理。这些问题要求模型不仅具备视觉实体识别能力,还需生成假设并进行因果分析,这对现有的大语言模型(LLMs)和视觉语言模型(VLMs)提出了极高的要求。其次,在数据集构建过程中,研究人员面临了如何从视频中提取程序性知识并将其结构化为知识图谱的挑战。尽管LLMs和VLMs在推理和知识捕捉方面表现出色,但其内部推理机制缺乏透明性,难以直接应用于程序性任务的推理。此外,数据集的构建还涉及如何平衡问题类型的多样性和复杂性,以确保模型能够应对各种推理需求。
常用场景
经典使用场景
PKG-VQA数据集主要用于视频问答任务,特别是涉及程序性知识的复杂推理场景。该数据集要求模型不仅能够识别视频中的视觉实体,还需要生成假设并进行上下文、因果和反事实推理。通过结合神经符号推理模块,模型能够从视频内容和程序性知识图谱中提取信息,生成可解释的答案。这一数据集在烹饪、机械维修和医疗程序等领域具有广泛的应用潜力。
解决学术问题
PKG-VQA数据集解决了程序性知识推理中的多个学术问题。首先,它填补了现有视频问答基准在程序性知识推理方面的空白,特别是缺乏直接从知识图谱中学习并生成假设的基准。其次,该数据集通过引入程序性知识图谱,支持多跳推理、演绎推理、概率推理、上下文推理、因果推理和反事实推理等多种推理需求。这些贡献使得模型能够在复杂的程序性任务中进行更深入的理解和推理。
衍生相关工作
PKG-VQA数据集衍生了一系列相关研究工作。例如,基于该数据集,研究者提出了知识模块学习框架(KML),该框架通过结合神经网络和知识图谱,实现了程序性知识的显式推理。此外,KML框架还衍生出了手动设计的知识模块(KML+D),进一步提升了推理的透明性和准确性。这些工作不仅在视频问答领域取得了显著进展,还为其他需要结构化推理的领域(如科学发现和工业自动化)提供了新的思路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作