CERTAINLYUNCERTAIN

Name: CERTAINLYUNCERTAIN
Creator: 华盛顿大学
Published: 2024-07-02 12:23:54
License: 暂无描述

arXiv2024-07-02 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2407.01942v1

下载链接

链接失效反馈

官方服务：

资源简介：

CERTAINLYUNCERTAIN数据集由华盛顿大学等机构创建，包含约178,000条视觉问答（VQA）样本，旨在评估和提升AI系统在多模态推理中的不确定性意识。数据集通过图像修复和语言模型生成对比问题，涵盖知识、复杂性、外部性、时间性和模糊性等多种不确定性类型。创建过程中，数据集利用了自动数据合成技术，确保了数据的多样性和系统性。该数据集主要应用于提高视觉语言模型的鲁棒性和可靠性，特别是在处理不确定性和模糊性问题时。

The CERTAINLYUNCERTAIN dataset, created by institutions including the University of Washington, contains approximately 178,000 visual question answering (VQA) samples, aiming to evaluate and enhance the uncertainty awareness of AI systems in multimodal reasoning. It generates contrastive questions via image inpainting and language model generation, covering multiple uncertainty types such as knowledge, complexity, externality, temporality, and ambiguity. During its creation, automatic data synthesis techniques were utilized to ensure the diversity and systematicity of the dataset. This dataset is mainly applied to improve the robustness and reliability of vision-language models, especially when handling uncertainty and ambiguity-related issues.

提供机构：

华盛顿大学

创建时间：

2024-07-02

搜集汇总

数据集介绍

构建方式

CERTAINLYUNCERTAIN数据集通过两种方法构建：1）通过图像修复技术，将原本可回答的问题变为不可回答的问题；2）使用图像描述来提示大型语言模型生成可回答和不可回答的问题。这种方法使得数据集包含了178K视觉问答（VQA）样本，作为对比对。数据集构建过程包括对图像进行显著性识别、掩蔽和扰动，以及对图像描述进行提示以生成问题。此外，还引入了新的度量标准，即置信度加权准确率，该指标与准确率和校准误差均具有良好的相关性。

特点

CERTAINLYUNCERTAIN数据集的特点是：1）包含了178K视觉问答（VQA）样本，作为对比对，涵盖了知识、复杂性、无关性、时间和模糊性等五种不确定性类型；2）数据集构建过程更加系统化，覆盖了更多样化和更细粒度的不确定性类别；3）数据集包含了对比性样本，有助于提高模型的鲁棒性。

使用方法

CERTAINLYUNCERTAIN数据集的使用方法包括：1）通过对比性样本训练模型，提高模型对不确定性的识别能力；2）使用置信度加权准确率作为评估指标，更全面地评估模型性能；3）结合其他数据集进行训练，提高模型在拒绝、幻觉和标准VQA任务上的表现。

背景与挑战

背景概述

在视觉-语言AI系统中，对于自身知识和推理中不可避免的未知性的认识是确保AI系统真正真实可靠的前提。本文提出了一个专门针对视觉-语言AI系统的未知性分类法，区分了认知不确定性和偶然不确定性，并进一步探索了更细致的分类。基于此分类法，我们合成了一个基准数据集CERTAINLYUNCERTAIN，包含178K视觉问答（VQA）样本的对立对。这是通过1）修复图像，使先前可回答的问题变为不可回答的；以及2）使用图像标题提示大型语言模型生成可回答和不可回答的问题。此外，我们引入了一个新的度量标准，即置信度加权准确度，它与准确度和校准误差密切相关，以解决现有度量标准的不足。尽管视觉-语言模型（VLMs）最近取得了快速发展，但在我们的基准数据集上的评估显示，它们在不确定的场景中表现不佳。进一步的实验表明，使用CERTAINLYUNCERTAIN进行监督微调可以提高VLMs的性能，并降低校准误差。这些改进不仅适用于我们的基准数据集，还适用于现有的拒绝导向数据集，并在减少幻觉的同时保持了在标准VQA基准上的性能。我们的工作强调了在视觉-语言AI系统中解决不确定性的重要性，以提高它们在现实世界应用中的可靠性和可信度。

当前挑战

视觉-语言模型在处理不确定性的场景时，往往过于自信，缺乏对自身错误的足够敏锐意识。现有的基准数据集主要关注清晰明确的答案场景，导致模型未能充分接触显式的不确定训练实例。为了解决这个问题，我们引入了CERTAINLYUNCERTAIN数据集，该数据集包含大约178K视觉问答（VQA）实例，涵盖了多种类型的未知性。该数据集的创建过程中遇到了以下挑战：1）构建一个包含多种不确定情况的大规模数据集；2）确保数据质量，避免模型失败导致无效样本的产生；3）引入新的度量标准，即置信度加权准确度，以更好地评估模型预测的准确性和置信度。

常用场景

经典使用场景

CERTAINLYUNCERTAIN数据集主要用于视觉语言模型的评估和训练，特别是在处理不确定性场景方面。该数据集包含约178K个视觉问答（VQA）样本，分为对比对，通过图像修复和图像描述生成两种方式构建。这些样本涵盖了多种不确定性类型，包括知识缺失、复杂性、无关信息、时间相关性和歧义性。通过使用CERTAINLYUNCERTAIN，研究人员可以评估视觉语言模型在不确定性场景下的表现，并针对性地进行改进。

实际应用

CERTAINLYUNCERTAIN数据集在实际应用中具有广泛的应用前景。在需要高可靠性和可信度的场景中，例如医疗诊断、金融预测等，该数据集可以帮助模型识别不确定性并做出更明智的决策。此外，该数据集还可以用于训练模型识别和减少幻觉，从而提高模型在现实世界应用中的鲁棒性和可靠性。

衍生相关工作

CERTAINLYUNCERTAIN数据集的提出引发了一系列相关研究。例如，一些研究探索了如何使用CERTAINLYUNCERTAIN数据集改进视觉语言模型的拒绝能力，即在无法回答的问题上更准确地表达“我不知道”。另一些研究则关注如何利用CERTAINLYUNCERTAIN数据集减少视觉语言模型的幻觉，提高其预测的准确性和可信度。此外，还有一些研究探讨了如何将CERTAINLYUNCERTAIN数据集应用于其他类型的模型，例如文本模型，以提高它们在不确定性场景下的表现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集