UniHall

Hugging Face2026-02-09 更新2026-02-10 收录

下载链接：

https://huggingface.co/datasets/IntJudge/UniHall

下载链接

链接失效反馈

官方服务：

资源简介：

UniHall 是一个用于评估多模态大语言模型（MLLMs）幻觉现象的系统性基准数据集。它通过整合细粒度的基准测试和自适应多模态模糊测试（SAMF），严格测试模型在真实场景中的幻觉表现。数据集包含三个关键维度的幻觉分类：对象级（虚构存在、属性或关系）、指令级（拒绝失败、迎合行为和上下文扭曲）和知识级（虚构事实、错误引用和不支持的细节）。数据集结构包括唯一标识符（instance_id）、元信息（meta_inf）、数据来源（source_inf）和种子数据（seed_data），其中种子数据包含问题类型、图像路径、问题、正确答案、可接受的其他答案和错误答案等字段。数据集规模为 2170 个测试样本，适用于视觉问答和图像文本到文本任务，支持英语，并包含多模态、幻觉、模糊测试和评估等标签。

创建时间：

2026-02-08

搜集汇总

数据集介绍

构建方式

在评估多模态大语言模型幻觉现象的迫切需求下，UniHall数据集通过系统化的方法构建而成。其核心是整合了来自多个现有基准的种子数据，并应用了创新的自适应性多模态模糊测试技术。该构建过程首先依据统一的三级分类法对幻觉进行精细标注，涵盖对象、指令和知识三个关键维度。随后，通过文本与视觉层面的自动化变异策略，如无关上下文扩展、背景干扰等，对原始数据进行演化，以模拟动态的真实世界场景并持续生成具有挑战性的测试样本。

特点

UniHall数据集以其精细的结构化标注和全面的评估体系而著称。数据集内每个样本均附带详尽的元信息，包括幻觉类别、子类型、风险等级以及数据来源，为深入分析模型失败模式提供了丰富脉络。其突出特点在于超越了传统的二元正确性评估，引入了一套由通用幻觉率、分解幻觉率、结构化幻觉率和综合幻觉分数构成的多层次度量体系。这套体系能够从不同粒度量化模型输出的可靠性，从而更精准地刻画幻觉的严重程度与具体类型。

使用方法

为有效利用UniHall数据集进行模型评估，研究者需首先配置相应的评估框架环境。典型的使用流程是克隆项目代码库并安装依赖项，随后通过执行提供的脚本，将待评估的多模态大语言模型在数据集上进行推理。评估过程会自动调用数据集内置的结构化度量套件，对模型的生成结果进行多维度分析，最终输出包括各类幻觉率在内的详细评估报告，助力研究者系统性地诊断和比较不同模型的抗幻觉能力。

背景与挑战

背景概述

随着多模态大语言模型的迅猛发展，模型在生成与视觉内容相关的文本时，时常产生与输入图像或事实不符的虚构内容，即幻觉现象，这严重制约了其在关键领域的可靠应用。UniHall数据集应运而生，由研究团队通过自我适应多模态模糊测试技术构建，旨在系统评估多模态模型的幻觉问题。该数据集建立了一个涵盖对象、指令与知识三个维度的细粒度分类体系，并整合了来自多个开源基准的种子数据，通过结构化标注与风险分级，为模型可靠性研究提供了重要基准。其创建标志着多模态模型评估从单纯性能测试向可信赖性深度分析的重要转变，对推动安全、可靠的多模态人工智能发展具有深远影响。

当前挑战

UniHall数据集致力于解决多模态大语言模型中普遍存在的幻觉问题，其核心挑战在于如何系统性地定义、诱发并量化模型在不同语义层次上的虚构输出。具体而言，构建过程面临两大挑战：一是设计能够全面覆盖多样化幻觉类型（如对象捏造、知识错误、指令曲解）且具有可扩展性的分类学体系；二是开发一种自适应的模糊测试方法，能够自动生成有效的多模态扰动（包括文本上下文干扰与视觉风格变换），以突破静态基准的饱和限制，持续发现模型在演化场景下的新型脆弱性。这些挑战要求数据集不仅提供评估样本，更需集成一套动态的、由强化学习驱动的测试生成框架。

常用场景

经典使用场景

在评估多模态大语言模型的幻觉现象时，UniHall数据集发挥着关键作用。该数据集通过系统化的基准测试框架，为研究者提供了标准化的评估环境，用于检测模型在视觉问答任务中产生的各类幻觉错误。其细粒度的分类体系涵盖了对象、指令和知识三个维度的幻觉类型，使得研究人员能够深入分析模型在不同场景下的可靠性表现，为模型诊断和性能优化提供了重要依据。

解决学术问题

UniHall数据集有效解决了多模态人工智能领域中对模型幻觉现象量化评估的难题。传统评估方法往往局限于简单的正确率统计，难以捕捉模型输出中存在的细微错误信息。该数据集通过引入结构化评估指标和自适应模糊测试机制，为学术界提供了系统化的幻觉检测框架，推动了模型可信度评估从定性分析向定量测量的转变，对提升多模态模型的可靠性和安全性具有重要理论价值。

衍生相关工作

基于UniHall数据集的研究工作推动了多模态幻觉检测技术的发展。相关研究团队开发了自适应模糊测试框架，利用强化学习策略自动发现最优扰动方案。同时，该数据集催生了多种幻觉缓解方法的创新，包括基于检索增强的验证机制、多轮对话修正策略等。这些衍生工作不仅扩展了幻觉检测的技术边界，也为构建更可靠的多模态系统提供了方法论支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集