VQA Dataset

github2024-04-20 更新2024-05-31 收录

下载链接：

https://github.com/CCYChongyanChen/VQA_AlgorithmDatasets

下载链接

链接失效反馈

官方服务：

资源简介：

VQA数据集包括多个子类别，如通用VQA、文本VQA、文档VQA等，每个子类别下又包含多个具体的数据集，如COCO、VQAv1、VQAv2等。

The VQA dataset suite encompasses multiple sub-categories, such as generic VQA, text-based VQA, document-based VQA, and so on. Each sub-category further includes several specific datasets, including COCO, VQAv1, VQAv2, and others.

创建时间：

2020-08-08

原始信息汇总

数据集概述

数据集分类

VQA Dataset
- General VQA
  - COCO
  - VQAv1, VQAv2
  - VQA Dialog
- Text-VQA
  - TextVQA
  - Scene Text VQA
  - OCR-VQA
- Doc-VQA
- Rehrase VQA question
  - Inverse Visual QA (iVQA)
  - VQA-Rehrasings
  - VQA-LOL
  - VQA-introspect
  - rehrase ambiguous questions
- Replace VQA images
  - VQAv2
  - VQA-CP
- VQA reasoning
  - VCR
  - Visual Entailment
  - GQA
  - CLEVER
  - Referring Expression
  - NLVR2
- VQA with External Knowledge
  - OK-VQA
  - FVQA
  - KBVQA
  - KVQA
- Explainable/Grounding Image Captioning/VQA
  - Flickr30K entities
  - Visual Genome
  - RefClef
  - RefCOCO
  - CLEVER-Ref+
  - Google Referring expression
  - PhraseCut
  - Visual7W
  - Visual Genome
  - VQA-HAT
  - VQS
  - VQA-X
  - VQA-E
  - TextVQA-X
  - GQA
  - CLEVR-Ans
  - VizWiz-VQA-Grounding
- Multilingual
  - Multilingual VQA
    - xGQA
    - MaXM
  - Image captioning
    - crossmodal3600

算法分类

Image Feature preparation
- Show, Attend and Tell
- SAN
- BUTD
- Grid Feature
- Pixel-BERT
- SOHO
- VinVL
Enhanced multimodal fusion
- Bilinear pooling
- FiLM
- cross-modal attention
- pretraining
- End-to-End pretraining
- graph attention/graph Convolutional Network
- Cross-modal+intra-modal
- Multi-step reasoning
- Neural module networks
External Knowledge Algorithm
- Mucko
- KRISP

排行榜

VQAv2 leaderboard
- Renaissance: 79.34
- VinVL: 76.60
- GridFeat+MoVie: 76.36
- DL-61 (BGN): 76.08
- VILLA: 75.9
- Ensemble LXMERT, VILBERT, VisualBERT: 75.15
- Pixel-BERT x152: 74.45
- Oscar: 73.82
- UNITER: 73.82
- SOHO: 73.47
- LXMERT: 72.54
- VLBERT: 72.22
- Pixel-BERT r50: 71.35
- ViLT: 71.32
- MCAN: 70.93
- VisualBERT: 71.00
- ViLBERT: 70.92
- BUTD: 65.67
- MUTAN: 60.17
VizWiz leaderboard (2022)
- GIT: 67.53
- HSSLab: 66.72
- Alibaba: 61.81
- LXMBERT: 55.4
- Pythia: 54.72
- Gridfeature+MCAN: 54.17
- VilBERT: 52
- SAN: 47.3
Text VQA leaderboard (2022)
- Mia: 73.67
- SunLan: 65.86
- Summer: 59.16
- Microsoft: 54.71
- TAG: 53.69
- ST-VQA: 45.66
- M4C: 39.01
- RUArt-M4C: 33.54
- LoRRA: 27.63

搜集汇总

数据集介绍

构建方式

VQA Dataset的构建基于多种视觉问答任务的需求，涵盖了从通用VQA到特定领域的文本VQA、文档VQA等多个子集。数据集的构建方式主要通过整合现有的图像数据集（如COCO）和问答对，形成丰富的视觉问答数据。此外，VQA Dataset还引入了外部知识库和多语言支持，以增强数据集的多样性和复杂性。通过这种方式，VQA Dataset为研究者提供了一个全面且多样的视觉问答研究平台。

使用方法

VQA Dataset的使用方法灵活多样，适用于多种视觉问答任务的研究和开发。研究者可以通过下载数据集并使用提供的标注信息进行模型训练和评估。数据集支持多种编程语言和深度学习框架，如PyTorch和TensorFlow，便于研究者快速上手。此外，数据集还提供了详细的文档和教程，帮助用户理解和使用数据集中的各种特性。

背景与挑战

背景概述

视觉问答（VQA）数据集是近年来在计算机视觉与自然语言处理交叉领域中备受瞩目的研究成果之一。该数据集由多个研究团队和机构共同开发，旨在通过图像与文本的结合，解决复杂的视觉问答问题。VQA数据集的创建始于2017年，主要研究人员包括来自多个知名学术机构和科技公司的专家，如微软、谷歌等。其核心研究问题是如何让计算机系统能够理解图像内容并回答与之相关的问题，这一问题对推动人工智能在视觉理解与语言交互方面的应用具有重要意义。VQA数据集的发布不仅为学术界提供了一个标准化的测试平台，还激发了大量关于多模态学习与推理的研究，极大地促进了相关领域的发展。

当前挑战

VQA数据集的构建与应用面临诸多挑战。首先，视觉问答任务本身要求模型具备对图像内容的深度理解与语言表达的精确匹配，这涉及到复杂的跨模态信息融合问题。其次，数据集的构建过程中，如何确保问题的多样性与答案的准确性是一个重要挑战，尤其是在处理开放性问题时，模型的泛化能力面临严峻考验。此外，VQA数据集的扩展与更新也带来了新的挑战，如如何引入更多的外部知识以增强模型的推理能力，以及如何处理多语言和多文化背景下的问答任务。这些挑战不仅推动了算法的发展，也对数据集的设计与维护提出了更高的要求。

常用场景

经典使用场景

VQA数据集在视觉问答领域中扮演着至关重要的角色，其经典应用场景主要集中在图像与文本的跨模态理解与交互上。通过提供丰富的图像和相应的问题，VQA数据集使得研究者能够训练和评估模型在理解图像内容并回答相关问题的能力。例如，模型可以通过分析图像中的物体、场景和动作，结合自然语言处理技术，准确回答关于图像的复杂问题。

解决学术问题

VQA数据集解决了视觉与语言跨模态理解中的多个关键学术问题。首先，它推动了对图像内容深度理解的探索，使得模型能够从图像中提取有意义的信息。其次，它促进了自然语言处理与计算机视觉的融合，为多模态学习提供了丰富的数据支持。此外，VQA数据集还推动了对复杂推理和知识整合的研究，为开发更智能的AI系统奠定了基础。

实际应用

在实际应用中，VQA数据集的应用场景广泛，包括但不限于智能客服、教育辅助、医疗诊断和自动驾驶等领域。例如，在智能客服中，VQA技术可以帮助系统理解用户上传的图片并提供准确的回答；在教育领域，它可以用于开发智能教学工具，帮助学生更好地理解复杂的视觉信息；在医疗诊断中，VQA可以帮助医生快速分析医学影像并提供诊断建议。

数据集最近研究