TallyQA

github2024-05-07 更新2024-05-31 收录

下载链接：

https://github.com/manoja328/TallyQA_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

TallyQA是唯一一个区分简单和复杂计数问题的数据集。为了确保复杂问题在图像中具有反事实，我们使用Amazon Mechanical Turk (AMT)进行数据收集。总结来说，它包含287K个问题、165K张图像和19K个通过AMT由人类标注者收集的复杂问题。

TallyQA stands as the sole dataset that distinguishes between simple and complex counting questions. To ensure that complex questions possess counterfactuals within the images, data collection was conducted using Amazon Mechanical Turk (AMT). In summary, it comprises 287K questions, 165K images, and 19K complex questions gathered by human annotators via AMT.

创建时间：

2018-09-28

原始信息汇总

TallyQA数据集概述

数据集统计信息

问题数量: 287,000个
图像数量: 165,000张
复杂问题数量: 19,000个，由Amazon Mechanical Turk (AMT)的人类标注者收集

数据集特点

区分简单和复杂计数问题
复杂问题确保图像中存在反事实情况

数据集内容

数据格式: JSON文件，包含训练和测试分割
数据条目结构: json { answer: 4, data_source: imported_genome, image: VG_100K_2/2410408.jpg, image_id: 92410408, issimple: False, question: How many headlights does the black bus have?, question_id: 30095774 }
字段解释:
- answer: 答案
- data_source: 问题-答案对的来源，AMT标注的问题为data_source = amt
- image: 图像文件路径
- image_id: 图像ID
- issimple: 问题是否简单，简单为True，复杂为False
- question: 问题文本
- question_id: 问题ID

图像来源

图像来源于COCO和Visual Genome数据集

数据集下载

QA对下载链接: TallyQA数据集下载
图像下载链接:
- Visual Genome数据集
- COCO训练/验证图像

搜集汇总

数据集介绍

构建方式

TallyQA数据集的构建方式独具匠心，其核心在于区分简单与复杂计数问题。为确保复杂问题的图像中存在反事实情况，研究团队采用了Amazon Mechanical Turk（AMT）进行数据收集。数据集包含了287K个问题和165K张图像，其中19K个复杂问题由人工标注者通过AMT平台生成。此外，数据集中的问题和答案对来源于多个公开数据集，如TDIUC和VQA，并通过筛选和过滤形成最终的数据集。

特点

TallyQA数据集的显著特点在于其对简单和复杂计数问题的明确区分，通过`issimple`布尔标志字段实现。此外，数据集中的问题和答案对不仅来源于AMT平台的人工标注，还整合了TDIUC和VQA等数据集的资源，确保了数据的多样性和广泛性。图像资源则主要来自COCO和Visual Genome数据集，保证了图像的高质量和多样性。

使用方法

使用TallyQA数据集时，用户可以通过提供的链接下载包含训练和测试分割的json文件。每个数据条目包含答案、图像ID、图像路径、问题内容以及`issimple`标志等字段。用户需注意，图像数据需从COCO和Visual Genome数据集单独下载。此外，HowmanyQA数据集的ID引用自VQA 2.0和Visual Genome数据集，需另行下载。引用该数据集时，请使用提供的Bibtex格式。

背景与挑战

背景概述

TallyQA数据集由Acharya等人于2019年创建，旨在解决复杂计数问题的挑战。该数据集通过区分简单和复杂计数问题，填补了现有视觉问答（VQA）数据集的空白。TallyQA的核心研究问题是如何有效处理和回答复杂的计数问题，这些问题通常涉及图像中的多个对象或需要推理的场景。通过使用Amazon Mechanical Turk（AMT）进行数据收集，TallyQA确保了复杂问题的真实性和多样性。该数据集包含287,000个问题和165,000张图像，其中19,000个问题为复杂计数问题，这些问题由人类注释者生成。TallyQA的发布对视觉问答和图像理解领域产生了重要影响，为研究者提供了一个新的基准来评估和改进复杂计数问题的解决方法。

当前挑战

TallyQA数据集在构建过程中面临多项挑战。首先，区分简单和复杂计数问题需要精确的注释和分类，这增加了数据收集的复杂性。其次，确保复杂问题在图像中具有反事实性（conterfactuals），即问题的答案在图像中是明确的，这要求注释者具备高度的专业性和判断力。此外，从现有数据集（如TDIUC和VQA）中筛选和导入问题，以及整合来自COCO和Visual Genome的图像，都涉及数据清洗和匹配的难题。最后，如何有效地处理和回答这些复杂计数问题，仍然是该领域的一个重大挑战，尤其是在涉及多对象识别和场景理解的场景中。

常用场景

经典使用场景

TallyQA数据集在视觉问答领域中扮演着重要角色，尤其在处理复杂计数问题方面。其经典使用场景包括训练和评估视觉问答系统，特别是那些需要区分简单和复杂计数问题的模型。通过提供大量带有复杂计数问题的图像和对应的问答对，TallyQA使得研究人员能够开发和测试能够处理更复杂视觉推理任务的算法。

衍生相关工作

基于TallyQA数据集，研究者们开发了多种视觉问答和计数相关的算法和模型。例如，一些工作利用TallyQA进行复杂计数问题的深度学习模型训练，提升了模型在处理视觉问答任务中的表现。此外，TallyQA还启发了其他数据集的构建，如HowmanyQA，进一步推动了视觉问答和计数领域的发展。

数据集最近研究