TUBench

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/He-Xingwei/TUBench

下载链接

链接失效反馈

官方服务：

资源简介：

TUBench是一个评估大型视觉语言模型在处理无法回答的问题时的可靠性的数据集。它包含了基于自然图像、代码片段、几何图表和统计表格的四种类型的问题。数据集分为UVQA、UCR、UGeoQA和UTabMWP四个子数据集，每个子数据集都有一套特定的构造策略来生成无法回答的问题。

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

在构建TUBench数据集的过程中，研究者们精心设计了不可回答的问题，以评估大型视觉语言模型在处理信息缺失场景下的可靠性。该数据集涵盖了自然图像、代码片段、几何图表和统计表格四个领域，通过九种策略生成不可回答的问题。例如，在UVQA子集中，采用信息遮挡、细节模糊、画面外信息和空间关系不确定等策略；UCR子集则通过引入随机函数、省略变量初始化和代码不完整等方式制造不确定性；UGeoQA和UTabMWP子集分别通过移除关键条件和遮挡重要信息来构建不可回答问题。这种多领域、多策略的构建方法确保了数据集的全面性和挑战性。

特点

TUBench数据集的核心特点在于其专注于不可回答问题的评估，填补了传统视觉问答基准在信息缺失场景下的空白。数据集包含四个独立的子集：UVQA、UCR、UGeoQA和UTabMWP，覆盖常识推理、代码理解、几何分析和数学计算等多个认知维度。每个子集均通过严格的策略生成问题，确保模型必须识别信息不足而非盲目生成答案。数据集的多样性和专业性使其成为衡量模型可信度和抗幻觉能力的重要工具，尤其适合用于检验模型在复杂现实场景中的稳健性。

使用方法

使用TUBench数据集时，研究者可通过下载各子集的压缩文件并解压后访问数据。每个子集以目录结构组织，包含图像文件与对应的文本或JSON格式问题描述。例如，UVQA子集中每个目录的文本文件标注了问题编号、内容、答案及构建策略；UCR子集则区分原始代码与修改后版本的问题。评估时需运行官方提供的代码库，输入模型预测结果与标准答案进行比对，计算模型在识别不可回答问题上的准确率。该流程支持对多种视觉语言模型的系统性评测，助力可信人工智能研究的发展。

背景与挑战

背景概述

随着大规模视觉语言模型在感知与理解任务上的突破性进展，其幻觉问题——即生成与输入无关或错误的输出——逐渐成为可信人工智能研究的核心障碍。传统评估基准如MME与POPE主要针对可回答视觉问答任务设计，未能涵盖因图像信息缺失导致的不可回答问题场景。为填补这一空白，研究团队于2024年推出TUBench基准，通过构建涵盖自然图像、代码片段、几何图表与统计表格四类领域的不可回答问题，系统评估模型在常识推理、代码解析、几何运算及数学推演中的可信度。该数据集由NLPCode团队主导开发，通过对28个主流模型的测试表明，即使在最佳性能的Gemini-1.5-Pro模型中，仅41%的案例能同时提供正确答案与合理解释，揭示了现有技术在可靠性评估维度的重要缺陷。

当前挑战

在领域问题层面，TUBench直面视觉语言模型对不确定性场景的认知局限，要求模型准确识别信息不完整的不可回答问题，而非强行生成错误答案。构建过程中需克服多重技术挑战：其一，通过九类策略系统生成不可回答问题，包括信息遮挡、细节模糊、空间关系不确定等物理约束，以及代码函数随机添加、变量初始化缺失等程序逻辑干扰；其二，需确保生成问题的语义合理性与视觉逻辑一致性，避免因构造痕迹过重导致评估偏差；其三，跨领域数据整合涉及几何证明与表格推理的专业知识标注，要求构建者具备多模态语义对齐与领域知识建模的双重能力。

常用场景

经典使用场景

在视觉语言模型的可信度评估领域，TUBench数据集通过构建不可回答问题，系统性地测试模型在自然图像、代码片段、几何图表和统计表格等多模态场景下的认知边界。该数据集采用九种精心设计的策略，例如遮挡关键信息或引入代码不确定性，迫使模型识别自身知识局限，从而成为衡量大型视觉语言模型抗幻觉能力的重要标尺。

衍生相关工作

基于TUBench的评估范式，研究社区衍生出多维度可信度评估体系，如结合因果推理的幻觉溯源框架和动态知识边界检测算法。该数据集推动的不可回答问题生成技术，进一步催生了面向教育智能体的认知能力测评标准，以及在司法证据分析等专业领域的可信人工智能认证规范。

数据集最近研究