VideoNavQA

Name: VideoNavQA
Creator: Authors of the paper
License: 暂无描述

arXiv2025-02-19 收录

下载链接：

https://github.com/catalina17/VideoNavQA

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为VideoNavQA，包含了在House3D环境中生成的问答对，这些问题与视频相结合，旨在评估从近乎理想的导航路径中回答问题的性能。该数据集覆盖了28种问题类型，分为8个类别，并配有70个可能的答案。每种问题类型都与一个用于程序化生成的模板相关联。该数据集大约包含了101,000对视频和问题的组合，其任务类型为具身问答（Embodied Question Answering，简称Eqa）。

The dataset named VideoNavQA consists of question-answer pairs generated in the House3D environment, paired with corresponding videos, and is designed to evaluate the performance of question answering systems that utilize environmental information gathered from near-ideal navigation paths. It includes 28 question types grouped into 8 categories, with 70 possible answer options available. Each question type is associated with a template for procedural generation. The dataset contains approximately 101,000 video-question pairs, and its task type is Embodied Question Answering (abbreviated as EqA).

提供机构：

Authors of the paper

原始信息汇总

VideoNavQA 数据集概述

数据集简介

名称：VideoNavQA
任务：视觉推理任务，专注于回答与视频内容相关的问题，但不涉及导航和动作选择。
目标：提高视觉推理的难度，处理更复杂的推理问题。
相关论文：VideoNavQA: Bridging the Gap between Visual and Embodied Question Answering (BMVC 2019, ViGIL NeurIPS 2019)

数据集样例

样例问题：
- Where is the green rug next to the sofa?
- Are the computer and the bed the same color?
- What is the thing next to the tv stand located in the living room?

数据集获取

bash $ git clone https://github.com/catalina17/VideoNavQA $ virtualenv -p python3 videonavqa $ source videonavqa/bin/activate $ pip install -r requirements.txt

数据集链接

VideoNavQA benchmark data

数据集统计

依赖

模型评估：
- Faster-RCNN (使用VGG-16预训练权重)
- 预训练对象检测器（从指定checkpoint加载）
数据生成工具：
- EmbodiedQA fork
- House3D fork
- SUNCG dataset
- SUNCG toolbox

模型运行

使用eval.sh脚本运行FiLM-based模型
使用q_and_v_test.py脚本进行模型测试

引用

@article{cangea2019videonavqa, title={VideoNavQA: Bridging the Gap between Visual and Embodied Question Answering}, author={Cangea, C{u{a}}t{u{a}}lina and Belilovsky, Eugene and Li{`o}, Pietro and Courville, Aaron}, journal={arXiv preprint arXiv:1908.04950}, year={2019} }

搜集汇总

数据集介绍

构建方式

VideoNavQA数据集的构建，是在Embodied QA的基础上，移除了导航和动作选择的要求，从而提升了视觉推理组件的难度。该数据集通过设计并评估了数种VQA风格的模型，为评估现有方法在EQA中的可行性提供了一种新颖的方式。

特点

VideoNavQA数据集的特点在于，它拥有一个更大的问题空间，处理的是使得QA任务具有挑战性的复杂推理问题。该数据集通过展示即使是在最理想的环境设置下，问题的难度依然很大，从而突显了其问题的复杂性。

使用方法

使用VideoNavQA数据集首先需要通过Git进行克隆，然后创建一个Python3的虚拟环境并进行激活，接着安装所需的依赖。数据集的基准数据可以在线获取，解压后需要更新`BASE_DIR`的路径。模型评估和数据处理工具的依赖包括Faster-RCNN的fork版本、EmbodiedQA的fork版本、House3D的fork版本以及SUNCG的数据集和工具箱。

背景与挑战

背景概述

VideoNavQA数据集的创建，旨在通过移除Embodied QA中的导航与动作选择要求，增加视觉推理组件的难度，处理使得问答任务具有挑战性的复杂推理问题。该数据集由Cătălina Cangea、Eugene Belilovsky、Pietro Liò和Aaron Courville等研究人员于2019年提出，并在BMVC 2019和ViGIL NeurIPS 2019上进行了spotlight talk。该数据集的核心研究问题是如何在视觉问答任务中，提高模型对于复杂问题的处理能力，并对现有方法的可行性进行评估，对视觉与具身问答之间的鸿沟进行了探索，对相关领域产生了重要影响。

当前挑战

VideoNavQA数据集面临的挑战主要包括：1)如何设计有效的模型以处理更大范围的问题空间，解决复杂的视觉推理问题；2)构建数据集过程中，如何平衡数据质量与数据量的关系，确保数据集能够全面、准确地反映真实场景中的问题；3)现有模型在面对该数据集时，性能提升的空间有限，需要进一步研究更高效的模型结构和训练策略。

常用场景

经典使用场景

VideoNavQA数据集之核心任务旨在对视频内容进行深入理解并回答相关问题，其经典使用场景在于评估视觉推理能力，尤其是在处理空间关系和场景理解方面。该数据集通过提供一段视频及其对应的提问，要求模型在无需导航和动作选择的情况下，对视频中的复杂问题进行回答，从而在更大的问题空间内挑战视觉推理的极限。

解决学术问题

该数据集解决了传统视觉问答中问题空间有限的问题，推动了视觉推理任务在复杂问题处理上的研究。通过VideoNavQA，研究者能够在一个更加理想化的设置中评估现有方法的问答可行性，同时也揭示了即便在最佳条件下，此类问题依然具有极高的难度。这对于理解视觉问答系统的限制和提升其性能具有重要意义。

衍生相关工作

VideoNavQA数据集的提出促进了相关领域的研究，如Embodied QA任务的改进、视频理解模型的创新以及三维场景理解技术的发展。众多衍生工作在此基础上探讨了如何将视觉推理与场景理解相结合，以实现更加复杂和真实的交互式问答系统。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集