LRTA_Perturbed_Dataset

github2024-03-20 更新2024-05-31 收录

下载链接：

https://github.com/Aishwarya-NR/LRTA_Perturbed_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含在论文LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular Supervision for Visual Question Answering (NeurIPS 2020)中提出的扰动数据集（验证集和测试开发集）。数据集为GQA评估数据集的掩码版本，其中使用了XXXunknownXXX作为掩码词，JSON结构与原始数据集相同，并添加了一个名为question_orig的字段，表示原始未掩码的问题。

本数据集收录了在《LRTA：一种透明神经符号推理框架，包含模块化监督的视觉问答系统》（NeurIPS 2020）一文中提出的扰动数据集（包括验证集与测试开发集）。该数据集是对GQA评估数据集的掩码版本进行构建，其中采用了“XXXunknownXXX”作为掩码词汇，其JSON结构保持与原始数据集一致，并新增了“question_orig”字段，用以标识原始未进行掩码处理的问题。

创建时间：

2020-11-13

原始信息汇总

LRTA_Perturbed_Dataset 概述

数据集描述

来源: 该数据集是基于GQA评估数据集（https://cs.stanford.edu/people/dorarad/gqa/download.html）的扰动版本。
目的: 用于论文**LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular Supervision for Visual Question Answering (NeurIPS 2020)**的研究。
扰动方法: 使用"XXXunknownXXX"作为掩码词，对数据集中的属性和关系进行掩码处理。

数据集结构

文件:
- attribute_masked_data.zip
  - val_balanced_attribute_masked_questions.json
  - testdev_balanced_attribute_masked_questions.json
- vrb_prpn_masked_data.zip
  - val_balanced_vrb_prpn_masked_questions.json
  - testdev_balanced_vrb_prpn_masked_questions.json

数据示例

问题掩码: 原始问题 "Do you see a train near the female person?" 被掩码为 "Do you see a train near the XXXunknownXXX person?"。
数据字段:
- question: 掩码后的问题。
- imageId: 图像ID。
- isBalanced: 是否平衡。
- answer: 答案。
- question_orig: 原始未掩码的问题。

掩码生成方法

属性掩码: 通过替换问题中的属性词为"XXXunknownXXX"实现。
关系掩码: 使用spacy的POS标记器识别并替换动词和介词为"XXXunknownXXX"。

搜集汇总

数据集介绍

构建方式

LRTA_Perturbed_Dataset的构建基于GQA评估数据集，通过特定的掩码技术对原始数据进行扰动处理。具体而言，数据集采用了属性掩码和关系掩码两种策略。属性掩码通过识别并替换问题中的属性词汇为‘XXXunknownXXX’，而关系掩码则利用自然语言处理工具spacy的词性标注功能，将动词和介词替换为相同的掩码标记。这一过程保留了原始数据的JSON结构，并新增了‘question_orig’字段以记录未掩码的原始问题。

使用方法

使用LRTA_Perturbed_Dataset时，研究者可通过解压提供的zip文件获取掩码后的JSON数据文件。这些文件可直接用于视觉问答模型的训练和评估，特别是在测试模型对模糊信息的处理能力时。数据集中的‘question_orig’字段可用于对比分析掩码前后的问题，帮助研究者深入理解模型的表现。此外，数据生成代码片段为自定义掩码策略提供了参考，支持进一步的数据扩展和实验设计。

背景与挑战

背景概述

LRTA_Perturbed_Dataset是由NeurIPS 2020论文《LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular Supervision for Visual Question Answering》提出的一个扰动数据集，旨在通过模块化监督提升视觉问答（VQA）任务的透明性和可解释性。该数据集基于GQA评估数据集，通过对属性（attribute）和关系（relationship）进行掩码处理，生成了扰动版本的数据集。掩码处理使用特定标记“XXXunknownXXX”替代原始问题中的关键信息，同时保留了原始问题的结构，并新增了“question_orig”字段以记录未掩码的原始问题。该数据集的创建为研究神经符号推理框架在复杂视觉问答任务中的应用提供了重要支持，推动了VQA领域对模型透明性和推理能力的深入探讨。

当前挑战

LRTA_Perturbed_Dataset在构建和应用过程中面临多重挑战。首先，在领域问题层面，视觉问答任务本身具有高度复杂性，模型需要同时理解图像内容和自然语言问题，而扰动数据集的引入进一步增加了任务难度，要求模型在信息缺失的情况下进行推理。其次，在数据集构建过程中，如何准确识别并掩码关键属性与关系是一个技术难点，需依赖自然语言处理工具（如spacy POS Tagger）进行词性标注和筛选，同时确保掩码后的数据仍保持语义完整性和逻辑一致性。此外，数据集的扰动设计需平衡信息缺失与任务可解性，避免因过度掩码导致问题无法解答。这些挑战不仅考验了数据集的构建技术，也为VQA模型的鲁棒性和推理能力提出了更高要求。

常用场景

经典使用场景

LRTA_Perturbed_Dataset在视觉问答（VQA）领域中被广泛用于评估神经符号推理框架的鲁棒性和透明度。通过引入属性与关系的掩码机制，该数据集能够模拟真实场景中信息缺失或模糊的情况，从而为研究者提供了一个理想的测试平台，用于验证模型在复杂语义理解任务中的表现。

解决学术问题

该数据集有效解决了视觉问答领域中模型对语义细节的过度依赖问题。通过掩码处理，研究者能够更清晰地分析模型在信息不完整条件下的推理能力，进而推动透明化神经符号推理框架的发展。这一创新为提升模型的可解释性和鲁棒性提供了重要的实验基础。

实际应用

在实际应用中，LRTA_Perturbed_Dataset被用于开发智能问答系统，特别是在需要处理模糊或不完整信息的场景中，如自动驾驶、医疗诊断和智能客服。通过在该数据集上训练的模型，能够更好地应对现实世界中的复杂语义挑战，提升系统的实用性和可靠性。

数据集最近研究