室内场景VQA数据集

github2019-09-05 更新2024-05-31 收录

下载链接：

https://github.com/zeryabmoussaoui/VQA-dataset-Generator

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集专门针对室内场景，通过从Visual Genome、VQA v2和原始图像中过滤和生成问题与答案，形成一个特定领域的视觉问答数据集。数据集的生成过程包括使用关键词文件过滤图像和问题，应用对象检测算法（如YOLO 9000），并根据检测到的对象生成问题。此外，数据集还可以通过修改代码适应其他领域。

This dataset is specifically tailored for indoor scenes, forming a domain-specific visual question answering dataset by filtering and generating questions and answers from Visual Genome, VQA v2, and original images. The dataset generation process involves filtering images and questions using keyword files, applying object detection algorithms (such as YOLO 9000), and generating questions based on the detected objects. Additionally, the dataset can be adapted to other domains by modifying the code.

创建时间：

2019-03-04

原始信息汇总

VQA Dataset Generator

数据集目标

本项目旨在开发一种技术，用于生成特定领域的视觉问答（VQA）数据集。当前版本专注于“室内场景”领域，生成室内场景的VQA数据集，该技术可通过少量代码修改适应其他数据集。

数据集结构

项目包含三个主要笔记本：

visualGenome.ipynb: 从Visual Genome数据集中筛选包含特定关键词的图像，生成特定领域的数据集，并通过负筛选减少误报。
VQA2_Dataset.ipynb: 从VQA v2数据集中筛选包含特定关键词的问题，生成特定领域的数据集。
Raw_images_generator: 使用YOLO 9000算法从原始图像中检测对象，并应用问题模板生成问题，创建特定领域的数据集。

数据集处理流程

若要运行代码，需遵循以下步骤：

运行install.ipynb设置环境。
运行VQA_V2_Dataset.ipynb从VQA v2数据集中提取室内场景。
运行VisualGenome.ipynb从VG和GQA数据集中提取室内场景。
运行Questions_answers_generation.ipynb从NUY Depth V2数据集生成室内VQA数据集。
运行Fusion.ipynb将所有数据集融合并分割为训练集和验证集。

注意事项

每个笔记本包含变量部分，用户需根据特定需求填充变量，特别是data_root变量，需在所有笔记本中保持一致。
部分内容如房间模板问题、图像格式转换等特定于室内场景，如不需要可移除。
代码中包含的Google Colab相关代码可根据需要跳过。

搜集汇总

数据集介绍

构建方式

室内场景VQA数据集的构建，专注于生成特定领域下的视觉问题回答数据集。该数据集通过三种方式生成：从Visual Genome数据集中筛选特定对象构建领域专有的数据集，从VQA v2数据集中筛选含有特定关键词的问题，以及从原始图像中使用YOLO 9000对象检测算法生成问题模板。这些方法结合后，通过融合笔记本中的代码，生成一个统一的室内场景VQA数据集，并进一步划分为训练集和验证集。

特点

该数据集的特点在于其领域专一性，专注于室内场景，且构建过程中采用了负面过滤以减少误报。此外，数据集的生成考虑了多种来源和构建方式，使得数据更为全面和多样化。它包含了从不同数据源筛选和生成的视觉问题，以及相应的答案，适合用于室内场景的视觉问答研究。

使用方法

使用该数据集时，用户需遵循一系列步骤：首先运行安装笔记本以配置环境，随后执行VQA_V2_Dataset和VisualGenome笔记本以筛选数据，然后运行问题答案生成笔记本和融合笔记本以生成最终的训练和验证数据集。用户需在各个笔记本中设置特定变量，如数据根目录，并根据需要调整特定的代码部分，以适应不同的使用场景。

背景与挑战

背景概述

室内场景VQA数据集，旨在生成针对选定领域专门的视觉问答数据集。该数据集的创建，源于对室内场景领域视觉问答技术的需求，项目始于2019年，由Nabih Nebbache主持开发。该数据集通过筛选视觉基因组（Visual Genome）和VQA v2数据集中的室内场景相关图像和问题，形成了一个专门针对室内场景的视觉问答数据集，对推动室内场景理解、图像识别和自然语言处理领域的研究具有重要价值。

当前挑战

该数据集的构建过程中，研究人员面临着多个挑战。首先，如何精确筛选出与室内场景相关的图像和问题是首要挑战；其次，构建过程中需解决不同数据源之间的融合问题，以及如何将检测结果与问题模板有效结合以生成合理的问答对；最后，数据集的质量控制和错误率的降低也是一大挑战。此外，该数据集在问题多样性、自然性以及与真实用户交互的适应性方面也存在着一定的局限性。

常用场景

经典使用场景

室内场景VQA数据集，专为室内场景视觉问答而设计，其经典使用场景在于通过领域特定的数据筛选，为研究者和开发者提供一份精确且相关的数据资源，从而能够训练出能够理解和回答关于室内场景问题的AI模型。

衍生相关工作

基于室内场景VQA数据集，研究者们衍生出了多种相关工作，如室内场景理解、物体检测和场景分割等，进一步推动了计算机视觉和自然语言处理领域内的交叉研究。

数据集最近研究