UNK-VQA

Name: UNK-VQA
Creator: 新加坡国家研究基金会
Published: 2024-04-13 13:52:04
License: 暂无描述

arXiv2024-04-13 更新2024-07-31 收录

下载链接：

https://github.com/guoyang9/UNK-VQA

下载链接

链接失效反馈

官方服务：

资源简介：

UNK-VQA数据集由新加坡国家研究基金会支持，旨在提升视觉问答（VQA）模型对不可回答问题的识别能力。该数据集通过精心设计的图像和问题扰动，确保问题与图像语义紧密相关，从而增加了识别不可回答问题的难度。数据集包含10000个实例，每个实例都经过至少三位人工标注者的标注，确保了数据的高质量。UNK-VQA数据集不仅为VQA模型的信任度提升提供了宝贵的基准，还通过广泛的模型评估揭示了现有多模态大型模型在处理不可回答问题时的局限性。

The UNK-VQA dataset, supported by the National Research Foundation of Singapore, aims to enhance the capability of visual question answering (VQA) models to identify unanswerable questions. It is developed through carefully designed image and question perturbations, ensuring that the questions are closely semantically correlated with the corresponding images, thus increasing the difficulty of recognizing unanswerable questions. The dataset contains 10,000 instances, each of which has been annotated by at least three human annotators to guarantee high data quality. The UNK-VQA dataset not only provides a valuable benchmark for improving the trustworthiness of VQA models, but also reveals the limitations of existing large multimodal models in handling unanswerable questions via extensive model evaluations.

提供机构：

新加坡国家研究基金会

创建时间：

2023-10-17

原始信息汇总

UNK-VQA: A Dataset and A Probe into Multi-modal Large Models Abstention Ability

数据集概述

UNK-VQA 是一个包含不可回答问题的视觉问答（VQA）数据集。

数据集结构

数据集的结构如下：

images-train：训练图像文件夹，包含 COCO 格式的图像文件（如 COCO-*.jpg）。
images-val：验证图像文件夹，包含 COCO 格式的图像文件（如 COCO-*.jpg）。
annt_train.json：训练集的标注文件。
annt_val.json：验证集的标注文件。
annt_test.json：测试集的标注文件。

扰动类型

数据集中包含五种扰动类型，具体如下：

T-1：单词替换
T-2：语义否定
I-1：图像替换
I-2：图像掩码
I-3：图像复制和移动

标注文件说明

每个 json 文件的结构相似，以下是一个标注文件的示例： json { "answer_map": { "1": "I dont know (e.g., beyond my knowledge)", "2": "Not sure (e.g., multiple answers)", "3": "I cannot answer (e.g., difficult question)" }, "reason_map": { "1": "It has multiple plausible answers", "2": "It is difficult to understand", "3": "The image lacks important concepts/information", "4": "It requires higher-level knowledge to answer" }, "alter_type_map": { "T-1": "word replacement", "T-2": "semantic negation", "I-1": "image replacement", "I-2": "image mask", "I-3": "image copy and move" }, "annotation": [ { "question_id": 68248, "question": "What is the man wearing on his lips?", "image_name": "COCO_val2014_000000549683.jpg", "answerability": { "binary": true, "other": { "answer": "nothing", "options": { "orig": "glasses", "baseline": "nothing", "random": "camera" } } }, "alter_type": "T-1", "misc": { "question_id_origin": 549683002, "image_name_origin": "COCO_val2014_000000549683.jpg", "answer_origin": "glasses" } } ] }

搜集汇总

数据集介绍

构建方式

在视觉问答领域，构建能够识别不可回答问题的高质量数据集对提升模型可信度至关重要。UNK-VQA数据集基于广泛使用的VQA v2数据集，通过精心设计的扰动策略生成不可回答的视觉问题实例。具体而言，研究团队引入了五种扰动类型，包括文本层面的词语替换与语义否定，以及图像层面的图像替换、对象掩码和对象复制移动。为确保扰动后的问题与图像语义保持高度一致，避免因语义漂移导致识别过于简单，团队采用预训练语言模型进行过滤，并利用CLIP视觉编码器筛选语义相似的候选图像。最终，通过亚马逊众包平台招募超过4000名标注者，对每个实例进行至少三次人工标注，确保标签的准确性与可靠性，最终构建了包含一万个实例的高质量数据集。

特点

UNK-VQA数据集的核心特点在于其专注于评估模型对不可回答问题的识别能力，即模型的“弃答”能力。与现有数据集相比，该数据集通过精细的扰动设计，确保问题与图像之间的语义关联紧密，使得识别不可回答问题更具挑战性，避免了因语义鸿沟过大而导致的简单预测。数据集中涵盖了多样化的扰动类型，从文本的细微修改到图像的关键对象遮蔽，全面测试模型在不同扰动下的鲁棒性。此外，数据集提供了详细的标注信息，包括不可回答的原因和多种答案选项，为模型训练与评估提供了丰富的信息支持。这些特点使得UNK-VQA成为推动视觉问答模型向更高可信度发展的重要基准。

使用方法

UNK-VQA数据集主要用于训练和评估视觉问答模型在不可回答问题上的弃答能力。研究者可通过该数据集进行零样本、少样本及全监督学习实验，以探究多模态大模型在此任务上的局限性。在零样本设置下，模型直接基于提示模板生成答案；在少样本设置中，可通过提供少量示例引导模型理解任务要求。对于全监督训练，数据集已划分为训练集、验证集和测试集，支持对现有模型进行微调或从头训练。此外，研究团队提出了基于分类器或熵的选择函数方法，可集成到现有模型中，增强其弃答能力。通过在这些设置下评估模型性能，UNK-VQA有助于揭示多模态大模型在视觉理解与推理方面的不足，并为构建更可信的AI系统提供方向。

背景与挑战

背景概述

视觉问答（VQA）作为实现通用人工智能的关键任务，其模型在应对不可回答问题时往往表现出鲁棒性不足。为填补这一研究空白，由新加坡国立大学、南洋理工大学及哈尔滨工业大学（深圳）等机构的研究人员于2024年共同构建了UNK-VQA数据集。该数据集基于广泛使用的VQA v2基准，通过精心设计的五类扰动策略——包括文本层面的词汇替换与语义否定，以及图像层面的图像替换、对象掩码与对象复制移动——生成了约一万个高质量样本。核心研究目标在于系统评估并提升多模态大模型在面对语义紧密关联但无法回答的视觉问题时的弃答能力，从而推动可信人工智能系统的发展。UNK-VQA的建立为视觉语言理解领域引入了新的评估维度，对模型鲁棒性与可靠性研究产生了深远影响。

当前挑战

UNK-VQA数据集致力于解决视觉问答中模型对不可回答问题的识别与弃答挑战，这一问题直接关联到人工智能系统的可信度与安全性。具体而言，现有模型往往倾向于对超出其知识范围或信息不全的问题给出错误答案，缺乏人类般的审慎判断能力。在数据构建过程中，研究团队面临两大核心难题：一是如何生成既与原始数据语义高度一致、又能有效欺骗模型的困难样本，避免因语义漂移过大而导致任务简单化；二是需确保标注质量与一致性，为此他们引入了超过四千名众包工作者，并对每个样本进行至少三人次的独立标注与置信度评估，以消除标注偏差并保证数据的可靠性。这些挑战共同凸显了在复杂多模态场景下培养模型自知之明的艰巨性。

常用场景

经典使用场景

在视觉问答领域，UNK-VQA数据集被广泛用于评估多模态大模型对不可回答问题的识别与回避能力。该数据集通过五种精心设计的扰动策略，在保持原始语义连贯性的前提下，对图像或问题进行细微修改，构建出具有挑战性的不可回答样本。研究者利用该数据集进行零样本和少样本测试，系统探究模型在面对语义否定、物体掩码、图像替换等复杂场景时的表现，为模型可信度评估提供了标准化基准。

实际应用

在实际应用层面，UNK-VQA数据集为自动驾驶、医疗影像诊断、智能客服等高风险场景提供了关键验证工具。例如在自动驾驶系统中，当摄像头捕获的图像存在遮挡或模糊时，模型需要准确识别“当前问题无法回答”的状态，避免基于不完整信息做出危险决策。在医疗辅助诊断中，该数据集帮助训练系统对影像质量不佳或病症特征不明确的案例保持审慎态度，通过输出“需要人工复核”等安全响应，显著提升人机协作的可靠性与安全性。

衍生相关工作

基于UNK-VQA数据集的研究催生了多个重要方向的发展。在模型架构层面，研究者提出了融合熵值阈值判断的选择性分类器、基于置信度校准的答案验证模块等创新设计。在训练范式上，催生了面向不可回答问题的指令微调策略、多任务协同训练框架等新方法。同时，该数据集启发了对VizWiz、RGQA等现有数据集的重新评估，推动了视觉问答评估体系从单纯追求准确率向兼顾可信度与安全性的范式转变，为后续研究提供了丰富的技术参照与改进空间。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集