MM-Hallu/TUBench

Name: MM-Hallu/TUBench
Creator: MM-Hallu
Published: 2026-04-25 07:33:44
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/MM-Hallu/TUBench

下载链接

链接失效反馈

官方服务：

资源简介：

TUBench是一个用于评估大型视觉语言模型（LVLMs）在四个领域（代码、自然图像、几何、表格）中处理不可回答问题可靠性的基准测试数据集。包含2,354个示例，每个示例包含图像、问题、答案、来源子数据集、是否不可回答、构建策略、图像变体、原始项目标识符和问题索引等字段。数据集支持英文和中文，任务类别为视觉问答，标签包括基准测试、幻觉和不可回答问题。数据规模在1K到10K之间。

Benchmark for assessing LVLMs reliability using unanswerable questions across 4 domains (code, natural images, geometry, tables). 2,354 examples.

提供机构：

MM-Hallu

搜集汇总

数据集介绍

构建方式

TUBench数据集旨在评估大型视觉语言模型在面对不可回答问题时的可靠性，其构建过程精细且系统。该数据集汇聚了来自四个不同领域的子数据集，包括代码、自然图像、几何图形和表格，分别对应UCR、UVQA、UGeoQA和UTabMWP。每个样本由图像、问题、标准答案及标识其来源和属性的元数据组成。通过设计九种构建策略（S1至S9），研究团队系统性地生成了不可回答的问题变体，确保覆盖多种导致问题无法回答的场景，例如信息缺失或矛盾。此外，数据集中也包含可回答的问题作为对照，为全面评估模型行为提供了坚实基础。

特点

TUBench数据集的一大特色在于其专门针对不可回答问题的设计，这在现有基准测试中较为罕见。它收录了2354个样本，覆盖英语和中文两种语言，展现了多模态与多领域的融合。每个样本都明确标注了问题是否不可回答（is_unanswerable字段），并详细记录了构建策略和图像变体，便于研究人员深入分析模型在不同成因的不可答问题上的表现。该数据集尤其关注幻觉现象的评估，通过引入视觉和语言上的误导性线索，挑战模型在信息不充分或冲突时做出合理判断的能力，从而推动更鲁棒视觉语言模型的发展。

使用方法

使用TUBench数据集时，研究人员可以高效地加载其结构化的Parquet格式文件。该数据集主要面向视觉问答任务，用户需输入图像和对应的问题，并基于模型的输出与标准答案进行比对，重点考察模型在不可回答问题上的拒绝回答能力。通过解析字段如is_unanswerable和strategy，可以针对特定类型的不可答问题进行细粒度分析。数据集默认采用训练集划分，用户可直接用于评估，而无需额外训练。其开源格式兼容主流深度学习框架，便于集成到现有的评估流水线中，为衡量模型可靠性和缓解幻觉提供标准化的测试平台。

背景与挑战

背景概述

TUBench是由NLPCode团队于近年创建的多模态基准数据集，旨在评估大型视觉语言模型（LVLMs）在面对不可回答问题时的可靠性。该数据集涵盖代码、自然图像、几何图形和表格四个领域，包含2,354个精心设计的示例，每个示例由图像、问题及对应答案构成，其中部分问题被标注为不可回答。其核心研究问题在于揭示当前LVLMs在信息不完备或矛盾情境下的推理缺陷，为多模态人工智能系统的可信度评估提供标准化测试平台。TUBench的发布填补了现有基准对模型鲁棒性特别是幻觉现象检测的空白，对推动多模态理解领域的可靠性研究具有重要影响。

当前挑战

TUBench所解决的领域挑战在于多模态模型普遍存在的幻觉问题，即模型在缺乏充分信息支持时仍生成看似合理的错误回答。该数据集通过系统构造不可回答问题（采用S1至S9九种策略），模拟了实际应用中因图像模糊、信息缺失或逻辑矛盾导致的歧义场景。构建过程中的挑战包括：确保不可回答问题的严谨性以避免歧义，平衡四个领域的样本分布以消除领域偏差，以及在标注过程中保持人类判断的一致性。此外，如何通过图像变体（如u1）的生成技术自然引入信息不完整性，也是确保基准有效性的关键难点。

常用场景

经典使用场景

TUBench是一个专为评估大型视觉语言模型（LVLMs）可靠性而设计的基准数据集，其经典使用场景聚焦于检验模型在面临不可回答问题时的鲁棒性。该数据集跨越代码、自然图像、几何图形和表格四个领域，包含2354个精心构建的示例。研究者可利用这些包含不可回答问题的样本，系统性地测试LVLMs是否能够正确识别信息缺失或矛盾的情境，而非强行生成误导性答案。这一场景直接针对近年来LVLMs在开放域问答中常见的“幻觉”问题，为衡量模型真实推理能力提供了关键标尺。

实际应用

在实际应用中，TUBench的价值体现在多个高危领域。例如，在医疗影像分析中，当模型面对一张模糊或不完整的X光片时，若未能识别问题的不可回答性而贸然给出诊断，可能造成严重后果。类似地，在工业自动化场景里，模型需要判断图纸信息是否足以支撑某个操作决策，而非盲目执行。TUBench的评测框架能够帮助开发者筛选出更稳健的模型，从而在自动驾驶、远程协助、复杂报表审核等依赖视觉理解的场景中，有效降低因模型错误响应而导致的系统性风险。

衍生相关工作

围绕TUBench已经衍生出多项具有影响力的研究工作，其中最具代表性的包括将不可回答机制与对抗样本生成相结合的深入探索。研究者基于该数据集构建了策略性难题构造方法（S1-S9），揭示了不同领域下LVLMs对误导性问题的响应规律。此外，该基准催生了针对多模态理解中不确定性建模的新算法，例如通过后验概率分布分析来判定问题的可回答性。这些工作不仅提升了模型的安全意识，也为后续开发具备拒绝能力的高级视觉语言系统奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集