lmms-lab/HallusionBench

Name: lmms-lab/HallusionBench
Creator: lmms-lab
Published: 2024-03-08 03:19:26
License: 暂无描述

Hugging Face2024-03-08 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/lmms-lab/HallusionBench

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个格式化版本的HallusionBench数据集，用于评估大规模多模态模型。数据集包含图像和非图像两部分，分别有951和178个样本。数据集的特征包括类别、子类别、视觉输入、集合ID、图ID、样本注释、问题ID、问题、真实答案细节、真实答案、文件名和图像。该数据集用于lmms-eval管道中的一键评估。

提供机构：

lmms-lab

原始信息汇总

数据集概述

数据集信息

特征

category: 字符串类型
subcategory: 字符串类型
visual_input: 字符串类型
set_id: 字符串类型
figure_id: 字符串类型
sample_note: 字符串类型
question_id: 字符串类型
question: 字符串类型
gt_answer_details: 字符串类型
gt_answer: 字符串类型
filename: 字符串类型
image: 图像类型

分割

image:
- 字节数: 431997264.0
- 样本数: 951
non_image:
- 字节数: 41136.0
- 样本数: 178

大小

下载大小: 146553615
数据集大小: 432038400.0

配置

config_name: default
- data_files:
  - split: image
    - path: data/image-*
  - split: non_image
    - path: data/non_image-*

搜集汇总

数据集介绍

构建方式

HallusionBench数据集由lmms-lab团队基于原始HallusionBench进行格式化处理，旨在服务于大型多模态模型（LMMs）的评估流水线lmms-eval。该数据集的构建聚焦于诊断视觉语言模型中的语言幻觉与视觉错觉交织问题，通过精心设计的图像与问题对，模拟模型在复杂视觉推理场景中可能出现的认知偏差。数据包含951个图像样本和178个非图像样本，每个样本均标注了类别、子类别、视觉输入、问题ID、标准答案等结构化字段，确保评估的标准化与可重复性。

特点

该数据集的核心特点在于其针对语言幻觉与视觉错觉的联合诊断能力，通过细粒度的类别与子类别划分（如category和subcategory字段），系统性地覆盖了多种幻觉与错觉场景。每个样本均包含视觉输入、问题及标准答案详情（gt_answer_details），支持对模型输出进行多维度分析。数据集的规模虽精炼，但每个样本均经过严格设计，以揭示模型在视觉-语言对齐中的薄弱环节，为模型改进提供明确方向。

使用方法

使用HallusionBench时，可借助lmms-eval流水线实现一键式评估。用户需加载数据集中的图像与文本字段，将视觉输入（visual_input）和问题（question）作为模型输入，并将模型输出与标准答案（gt_answer）进行比对。数据集提供了预定义的分割（image与non_image），便于灵活配置评估任务。通过解析类别和子类别标签，研究者可针对特定幻觉类型进行深入分析，从而优化多模态模型的鲁棒性与准确性。

背景与挑战

背景概述

在大规模多模态模型（LMMs）迅猛发展的时代，视觉与语言之间的深度融合催生了诸多突破性应用，然而模型在理解复杂视觉场景时仍深陷幻觉与视觉错觉的泥沼。HallusionBench数据集由天津大学、马里兰大学等机构的研究人员于2023年共同创建，旨在系统性地剖析大视觉语言模型中语言幻觉与视觉错觉相互纠缠的难题。该数据集的核心研究问题聚焦于如何通过精心设计的视觉-语言对照实验，揭示模型在图像理解、逻辑推理与常识判断中的脆弱性。其影响力在于为多模态模型提供了一种细粒度的诊断工具，推动了评估范式从粗粒度任务性能向认知层面缺陷的转变，成为后续模型鲁棒性改进的重要基准。

当前挑战

HallusionBench所面对的挑战兼具领域深度与构建复杂性。在领域问题层面，它直指大视觉语言模型在图像分类、视觉问答等任务中普遍存在的幻觉现象——模型可能因视觉错觉或语言偏见而生成与事实相悖的答案，尤其是当图像包含歧义性元素或需要跨模态逻辑推理时，错误率显著攀升。在构建过程中，挑战在于如何设计出能有效剥离语言与视觉干扰因素的对照样本，例如通过修改图像局部细节或调整问题表述来制造“陷阱”，同时确保标注答案的客观性与一致性。此外，数据集的规模虽精炼但需覆盖多样化的视觉场景，以避免过拟合特定类型的幻觉，这对样本选择与质量控制提出了极高要求。

常用场景

经典使用场景

在多模态大模型蓬勃发展的浪潮中，如何精准评估模型对视觉与语言信息的联合理解能力成为关键挑战。HallusionBench数据集应运而生，其最经典的使用场景在于系统性诊断大型视觉-语言模型（LVLMs）中语言幻觉与视觉错觉交织的复杂缺陷。通过精心设计的包含图像与问题的配对样本，该数据集能够揭示模型在面对视觉陷阱或语言歧义时产生的错误响应，为研究者提供细粒度的错误分析依据，从而推动模型鲁棒性的提升。

衍生相关工作

HallusionBench的提出催生了一系列重要的后续研究工作。其中，鲁棒指令微调方法（如Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning）直接借鉴了该基准的评估框架，通过设计对抗性训练数据来缓解模型幻觉。此外，多模态图表理解数据集MMC的构建也受其启发，进一步拓展了视觉-语言模型在结构化信息场景下的评估维度。这些衍生工作共同构成了一个从诊断到修复的完整研究生态，加速了更可信赖的多模态智能系统的演进。

数据集最近研究