five

VideoNavQA

收藏
arXiv2025-02-19 收录
下载链接:
https://github.com/catalina17/VideoNavQA
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为VideoNavQA,包含了在House3D环境中生成的问答对,这些问题与视频相结合,旨在评估从近乎理想的导航路径中回答问题的性能。该数据集覆盖了28种问题类型,分为8个类别,并配有70个可能的答案。每种问题类型都与一个用于程序化生成的模板相关联。该数据集大约包含了101,000对视频和问题的组合,其任务类型为具身问答(Embodied Question Answering,简称Eqa)。

The dataset named VideoNavQA consists of question-answer pairs generated in the House3D environment, paired with corresponding videos, and is designed to evaluate the performance of question answering systems that utilize environmental information gathered from near-ideal navigation paths. It includes 28 question types grouped into 8 categories, with 70 possible answer options available. Each question type is associated with a template for procedural generation. The dataset contains approximately 101,000 video-question pairs, and its task type is Embodied Question Answering (abbreviated as EqA).
提供机构:
Authors of the paper
原始信息汇总

VideoNavQA 数据集概述

数据集简介

数据集样例

  • Sample videos

  • Sample videos

  • Sample videos

  • 样例问题:

    • Where is the green rug next to the sofa?
    • Are the computer and the bed the same color?
    • What is the thing next to the tv stand located in the living room?

数据集获取

bash $ git clone https://github.com/catalina17/VideoNavQA $ virtualenv -p python3 videonavqa $ source videonavqa/bin/activate $ pip install -r requirements.txt

数据集链接

数据集统计

  • Dataset statistics

依赖

模型运行

  • 使用eval.sh脚本运行FiLM-based模型
  • 使用q_and_v_test.py脚本进行模型测试

引用

@article{cangea2019videonavqa, title={VideoNavQA: Bridging the Gap between Visual and Embodied Question Answering}, author={Cangea, C{u{a}}t{u{a}}lina and Belilovsky, Eugene and Li{`o}, Pietro and Courville, Aaron}, journal={arXiv preprint arXiv:1908.04950}, year={2019} }

搜集汇总
数据集介绍
main_image_url
构建方式
VideoNavQA数据集的构建,是在Embodied QA的基础上,移除了导航和动作选择的要求,从而提升了视觉推理组件的难度。该数据集通过设计并评估了数种VQA风格的模型,为评估现有方法在EQA中的可行性提供了一种新颖的方式。
特点
VideoNavQA数据集的特点在于,它拥有一个更大的问题空间,处理的是使得QA任务具有挑战性的复杂推理问题。该数据集通过展示即使是在最理想的环境设置下,问题的难度依然很大,从而突显了其问题的复杂性。
使用方法
使用VideoNavQA数据集首先需要通过Git进行克隆,然后创建一个Python3的虚拟环境并进行激活,接着安装所需的依赖。数据集的基准数据可以在线获取,解压后需要更新`BASE_DIR`的路径。模型评估和数据处理工具的依赖包括Faster-RCNN的fork版本、EmbodiedQA的fork版本、House3D的fork版本以及SUNCG的数据集和工具箱。
背景与挑战
背景概述
VideoNavQA数据集的创建,旨在通过移除Embodied QA中的导航与动作选择要求,增加视觉推理组件的难度,处理使得问答任务具有挑战性的复杂推理问题。该数据集由Cătălina Cangea、Eugene Belilovsky、Pietro Liò和Aaron Courville等研究人员于2019年提出,并在BMVC 2019和ViGIL NeurIPS 2019上进行了spotlight talk。该数据集的核心研究问题是如何在视觉问答任务中,提高模型对于复杂问题的处理能力,并对现有方法的可行性进行评估,对视觉与具身问答之间的鸿沟进行了探索,对相关领域产生了重要影响。
当前挑战
VideoNavQA数据集面临的挑战主要包括:1)如何设计有效的模型以处理更大范围的问题空间,解决复杂的视觉推理问题;2)构建数据集过程中,如何平衡数据质量与数据量的关系,确保数据集能够全面、准确地反映真实场景中的问题;3)现有模型在面对该数据集时,性能提升的空间有限,需要进一步研究更高效的模型结构和训练策略。
常用场景
经典使用场景
VideoNavQA数据集之核心任务旨在对视频内容进行深入理解并回答相关问题,其经典使用场景在于评估视觉推理能力,尤其是在处理空间关系和场景理解方面。该数据集通过提供一段视频及其对应的提问,要求模型在无需导航和动作选择的情况下,对视频中的复杂问题进行回答,从而在更大的问题空间内挑战视觉推理的极限。
解决学术问题
该数据集解决了传统视觉问答中问题空间有限的问题,推动了视觉推理任务在复杂问题处理上的研究。通过VideoNavQA,研究者能够在一个更加理想化的设置中评估现有方法的问答可行性,同时也揭示了即便在最佳条件下,此类问题依然具有极高的难度。这对于理解视觉问答系统的限制和提升其性能具有重要意义。
衍生相关工作
VideoNavQA数据集的提出促进了相关领域的研究,如Embodied QA任务的改进、视频理解模型的创新以及三维场景理解技术的发展。众多衍生工作在此基础上探讨了如何将视觉推理与场景理解相结合,以实现更加复杂和真实的交互式问答系统。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作