TUBench

Name: TUBench
Creator: 香港大学、西安交通利物浦大学、北京航空航天大学、软件开发环境国家重点实验室、中关村实验室
Published: 2024-10-05 18:23:14
License: 暂无描述

arXiv2024-10-05 更新2024-10-09 收录

下载链接：

https://github.com/NLPCode/TUBench

下载链接

链接失效反馈

官方服务：

资源简介：

TUBench是由香港大学等机构创建的一个用于评估大型视觉语言模型（LVLMs）在不可回答问题上的可靠性的基准数据集。该数据集包含2354个问题，分为1203个可回答和1151个不可回答问题，涵盖代码推理、常识推理、几何推理和数学推理等多个领域。数据集的创建过程包括使用十种不同的策略精心设计不可回答问题，并基于四种不同类型的图像（代码截图、自然图像、几何图表和统计表格截图）进行构建。TUBench旨在通过不可回答问题来评估LVLMs的信任度和幻觉问题，为模型的改进提供新的视角。

TUBench is a benchmark dataset created by institutions including the University of Hong Kong for evaluating the reliability of Large Vision-Language Models (LVLMs) on unanswerable questions. This dataset comprises 2,354 questions, split into 1,203 answerable and 1,151 unanswerable ones, spanning multiple domains including code reasoning, commonsense reasoning, geometric reasoning, and mathematical reasoning. The development of TUBench involved elaborately designing unanswerable questions via ten distinct strategies, and curating the dataset based on four categories of images: code screenshots, natural images, geometric diagrams, and statistical table screenshots. TUBench aims to assess the trustworthiness and hallucination issues of LVLMs through unanswerable questions, providing a new perspective for model improvement.

提供机构：

香港大学、西安交通利物浦大学、北京航空航天大学、软件开发环境国家重点实验室、中关村实验室

创建时间：

2024-10-05

原始信息汇总

TUBench: Benchmarking Large Vision-Language Models on Trustworthiness with Unanswerable Questions

数据集概述

TUBench是一个专门设计用于评估大型视觉-语言模型（LVLMs）在不可回答问题上的可靠性的基准测试。该基准测试包含大量高质量的不可回答问题，这些问题通过十种不同的策略精心设计。TUBench使用来自四个不同领域的图像作为视觉上下文，包括代码片段截图、自然图像、几何图表和统计表格截图。这些问题旨在测试LVLMs在代码推理、常识推理、几何推理和与表格相关的数学推理方面的可靠性。

数据集组成

TUBench包括四个不同的数据集：

Unanswerable Code Reasoning (UCR)
Unanswerable Visual Question Answering (UVQA)
Unanswerable GeoQA (UGeoQA)
Unanswerable UTabMWP (UTabMWP)

Unanswerable Code Reasoning (UCR)

策略：
- S.1. 通过添加随机函数引入代码截图中的不确定性。
- S.2. 通过省略变量初始化引入代码截图中的不确定性。
- S.3. 通过故意留下某些代码行不完整引入代码截图中的不确定性。
数据集位置：datasets/UCR.zip

Unanswerable Visual Question Answering (UVQA)

策略：
- S.4. 所需信息在图像中被遮挡。
- S.5. 回答问题所需的细节难以或不可能辨别。
- S.6. 所需信息超出图片框架。
- S.7. 空间关系不确定。
- S.8. 所需信息未在图像中指示。
数据集位置：datasets/UVQA.zip

Unanswerable GeoQA (UGeoQA)

策略：
- S.9. 通过故意从可回答问题中移除一个条件来构造不可回答问题。
数据集位置：datasets/UGeoQA.zip

Unanswerable UTabMWP (UTabMWP)

策略：
- S.10. 通过故意遮挡左侧图像中的关键信息来使原始问题不可回答。
数据集位置：datasets/UTabMWP1.zip 和 datasets/UTabMWP2.zip

搜集汇总

数据集介绍

构建方式

TUBench 数据集的构建方法是通过精心设计无法回答的问题，这些问题基于来自四个不同领域的图像上下文：代码片段的屏幕截图、自然图像、几何图形和统计表的屏幕截图。这些问题旨在测试 LVLMs 在代码推理、常识推理、几何推理和与表格相关的数学推理方面的可靠性。为了确保数据质量，UCR 和 UVQA 数据集中的所有问题都由三位拥有博士学位的标注员进行审查，以确保问题与图像相关且答案正确。

特点

TUBench 数据集的特点在于其包含大量高质量的无法回答的问题，这些问题是通过十种不同的策略精心制作的。这些问题的设计使得 LVLMs 在面对无法回答的问题时能够明确表示其无法提供答案，而不是生成看似合理但错误的答案。数据集包括来自四个不同领域的图像，这使得 LVLMs 的评估更加全面和具有挑战性。

使用方法

使用 TUBench 数据集时，首先需要了解数据集的结构和包含的问题类型。然后，可以根据数据集中的问题对 LVLMs 进行评估，以确定模型在面对无法回答的问题时的可靠性。评估可以通过计算模型识别问题是否可回答的准确率来进行，以及模型提供正确答案的准确率。此外，还可以对模型生成的答案和解释进行人工分析，以评估模型的幻觉程度和信任度。

背景与挑战

背景概述

TUBench数据集的创建旨在评估大型视觉语言模型（LVLMs）在面对无法回答的问题时的可靠性。该数据集由香港大学和北京航空航天大学的研究人员于2023年提出，旨在解决LVLMs在图像中缺乏必要信息时仍然自信地提供看似正确但错误的答案的问题。TUBench包含来自四个不同领域的高质量无法回答的问题，这些领域包括代码片段截图、自然图像、几何图形和统计表截图。该数据集提供了评估LVLMs在代码推理、常识推理、几何推理和与表相关的数学推理方面的可靠性的新视角。

当前挑战

TUBench数据集的挑战主要在于评估LVLMs在面对无法回答的问题时的可靠性。具体挑战包括：1) LVLMs在判断问题是否可回答时存在困难，往往将无法回答的问题错误地归类为可回答的问题；2) 当面对无法回答的问题时，LVLMs容易出现幻觉，即生成与视觉或文本输入不符的内容。这些挑战表明，当前的LVLMs在处理无法回答的问题时仍存在显著缺陷，需要进一步研究和改进。

常用场景

经典使用场景

TUBench 数据集被广泛应用于评估大型视觉语言模型（LVLMs）在面对无法回答的问题时的可靠性。它通过包含大量精心设计的高质量无法回答的问题，涵盖了代码推理、常识推理、几何推理和数学推理等领域，为研究者提供了一个新的视角来评估 LVLMs 的可信度和幻觉现象。

衍生相关工作

TUBench 数据集的提出引发了相关领域的研究热潮。研究者们开始探索如何利用 TUBench 数据集来改进 LVLMs 的训练方法和模型架构，以减少幻觉现象并提高可信度。此外，TUBench 还被用于开发新的评估指标和方法，以更全面地评估 LVLMs 在面对无法回答的问题时的性能。

数据集最近研究