VideoNavQA|视觉问答数据集|具身智能数据集

github2019-08-14 更新2025-02-19 收录

视觉问答

具身智能

下载链接：

https://github.com/catalina17/VideoNavQA

下载链接

链接失效反馈

资源简介：

VideoNavQA是由剑桥大学和蒙特利尔大学等机构共同创建的数据集，旨在探索视觉与具身问答（EQA）任务的可行性。该数据集基于House3D虚拟环境生成，包含约10.1万对视频与问答，涵盖28种问题类型，涉及存在性、计数、比较等复杂视觉推理问题。数据集通过计算房间间的最短路径生成视频，并利用语义渲染提取真实信息以生成问题。VideoNavQA致力于评估在理想导航路径下，视觉问答模型的性能，为EQA任务提供新的研究视角，推动视觉问答与具身智能的融合。

提供机构：

剑桥大学和蒙特利尔大学等

创建时间：

2019-08-14

原始信息汇总

VideoNavQA 数据集概述

数据集简介

名称：VideoNavQA
任务：视觉推理任务，专注于回答与视频内容相关的问题，但不涉及导航和动作选择。
目标：提高视觉推理的难度，处理更复杂的推理问题。
相关论文：VideoNavQA: Bridging the Gap between Visual and Embodied Question Answering (BMVC 2019, ViGIL NeurIPS 2019)

数据集样例

样例问题：
- Where is the green rug next to the sofa?
- Are the computer and the bed the same color?
- What is the thing next to the tv stand located in the living room?

数据集获取

bash $ git clone https://github.com/catalina17/VideoNavQA $ virtualenv -p python3 videonavqa $ source videonavqa/bin/activate $ pip install -r requirements.txt

数据集链接

VideoNavQA benchmark data

数据集统计

依赖

模型评估：
- Faster-RCNN (使用VGG-16预训练权重)
- 预训练对象检测器（从指定checkpoint加载）
数据生成工具：
- EmbodiedQA fork
- House3D fork
- SUNCG dataset
- SUNCG toolbox

模型运行

使用eval.sh脚本运行FiLM-based模型
使用q_and_v_test.py脚本进行模型测试

引用

@article{cangea2019videonavqa, title={VideoNavQA: Bridging the Gap between Visual and Embodied Question Answering}, author={Cangea, C{u{a}}t{u{a}}lina and Belilovsky, Eugene and Li{`o}, Pietro and Courville, Aaron}, journal={arXiv preprint arXiv:1908.04950}, year={2019} }

AI搜集汇总

数据集介绍

构建方式

VideoNavQA数据集的构建，是在Embodied QA的基础上，移除了导航和动作选择的要求，从而提升了视觉推理组件的难度。该数据集通过设计并评估了数种VQA风格的模型，为评估现有方法在EQA中的可行性提供了一种新颖的方式。

特点

VideoNavQA数据集的特点在于，它拥有一个更大的问题空间，处理的是使得QA任务具有挑战性的复杂推理问题。该数据集通过展示即使是在最理想的环境设置下，问题的难度依然很大，从而突显了其问题的复杂性。

使用方法

使用VideoNavQA数据集首先需要通过Git进行克隆，然后创建一个Python3的虚拟环境并进行激活，接着安装所需的依赖。数据集的基准数据可以在线获取，解压后需要更新`BASE_DIR`的路径。模型评估和数据处理工具的依赖包括Faster-RCNN的fork版本、EmbodiedQA的fork版本、House3D的fork版本以及SUNCG的数据集和工具箱。

背景与挑战

背景概述

VideoNavQA数据集的创建，旨在通过移除Embodied QA中的导航与动作选择要求，增加视觉推理组件的难度，处理使得问答任务具有挑战性的复杂推理问题。该数据集由Cătălina Cangea、Eugene Belilovsky、Pietro Liò和Aaron Courville等研究人员于2019年提出，并在BMVC 2019和ViGIL NeurIPS 2019上进行了spotlight talk。该数据集的核心研究问题是如何在视觉问答任务中，提高模型对于复杂问题的处理能力，并对现有方法的可行性进行评估，对视觉与具身问答之间的鸿沟进行了探索，对相关领域产生了重要影响。

当前挑战

VideoNavQA数据集面临的挑战主要包括：1)如何设计有效的模型以处理更大范围的问题空间，解决复杂的视觉推理问题；2)构建数据集过程中，如何平衡数据质量与数据量的关系，确保数据集能够全面、准确地反映真实场景中的问题；3)现有模型在面对该数据集时，性能提升的空间有限，需要进一步研究更高效的模型结构和训练策略。

常用场景

经典使用场景

VideoNavQA数据集之核心任务旨在对视频内容进行深入理解并回答相关问题，其经典使用场景在于评估视觉推理能力，尤其是在处理空间关系和场景理解方面。该数据集通过提供一段视频及其对应的提问，要求模型在无需导航和动作选择的情况下，对视频中的复杂问题进行回答，从而在更大的问题空间内挑战视觉推理的极限。

解决学术问题

该数据集解决了传统视觉问答中问题空间有限的问题，推动了视觉推理任务在复杂问题处理上的研究。通过VideoNavQA，研究者能够在一个更加理想化的设置中评估现有方法的问答可行性，同时也揭示了即便在最佳条件下，此类问题依然具有极高的难度。这对于理解视觉问答系统的限制和提升其性能具有重要意义。

衍生相关工作

VideoNavQA数据集的提出促进了相关领域的研究，如Embodied QA任务的改进、视频理解模型的创新以及三维场景理解技术的发展。众多衍生工作在此基础上探讨了如何将视觉推理与场景理解相结合，以实现更加复杂和真实的交互式问答系统。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

2000-2018年中国典型生态系统植物生长节律数据

该数据集涵盖了森林、草地、荒漠、沼泽、农田生态系统2000年-2020年CERN长期定位监测的植物物候数据和主要作生育期数据，包括木本植物、草本植物、水稻、小麦、玉米物候数据表，木本植物数据表有18个台站、291个物种的芽开放期、展叶期、开花始期、开花盛期、果实或种子成熟期、叶秋季变色期和落叶期共计3814条记录；草本植物数据表有22个台站、312个物种的萌动期、开花期、果实或种子成熟期、种子散布期和黄枯期共计3032条数据；水稻数据表有9个台站的出苗期、拔节期、蜡熟期等10个生育期共551条记录；小麦数据表有9个台站不同生育期382条记录；玉米数据表有18个台站不同生育期532条数据。

地球大数据科学工程收录

中国行政区划数据

本项目为中国行政区划数据，包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局，存储格式为sqlite3 db文件，支持直接使用数据库连接工具打开。

github 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

Duke Lung Cancer Screening Dataset 2024 (DLCS 2024)

Duke Lung Cancer Screening Dataset 2024 (DLCS 2024) 是一个用于肺癌风险分类研究的数据集，随着低剂量胸部CT筛查项目的普及，该数据集变得越来越重要。

github 收录