MM-Hallu/VHBench-10

Name: MM-Hallu/VHBench-10
Creator: MM-Hallu
Published: 2026-04-30 05:01:05
License: 暂无描述

Hugging Face2026-04-30 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/MM-Hallu/VHBench-10

下载链接

链接失效反馈

官方服务：

资源简介：

VHBench-10是一个以视觉为中心的幻觉基准数据集，包含约10,000个样本，涵盖10个细粒度的幻觉类别。每个样本由三元组组成：（图像、真实标题、幻觉标题）。字段包括：image（输入图像）、image_name（图像文件名）、original（真实标题）、hallucination（幻觉标题）、type（幻觉类别）。

Vision-centric hallucination benchmark with ~10,000 samples across 10 fine-grained hallucination categories. Each sample is a ternary of (image, real caption, hallucinated caption). Fields include: image (input image), image_name (image filename), original (ground truth caption), hallucination (hallucinated caption), type (hallucination category).

提供机构：

MM-Hallu

搜集汇总

数据集介绍

构建方式

VHBench-10数据集是专为视觉中心幻觉评估而构建的基准测试资源，包含近一万个精心设计的样本，覆盖十种细粒度幻觉类别。每个样本以三元组形式组织，由输入图像、真实描述文本以及对应的幻觉描述文本构成。其中，真实描述来自人工或可靠模型生成的准确陈述，而幻觉描述则通过引入与图像内容矛盾或无关的信息合成，确保每一对样本能精准指向特定幻觉类型。数据来源基于现有公开图像库，经过严格筛选与标注流程，最终以Parquet格式存储于HuggingFace平台，便于高效加载与分发。

特点

该数据集的核心特点在于其细致入微的幻觉分类体系，涵盖十种不同类型的视觉幻觉现象，为研究者提供了系统化的评估维度。每个样本均明确标注所属幻觉类别，支持对模型在特定幻觉倾向上的表现进行深入剖析。此外，数据规模适中，约一万条样本在保证统计意义的同时避免了过大的计算开销，适合作为模型开发阶段的验证基准。图像与文本的配对结构简洁明确，便于与多种视觉-语言模型架构兼容，尤其适用于测评模型在描述生成任务中抵抗虚假信息的能力。

使用方法

使用时，研究者可将数据集直接加载为评估管线中的测试集，通过对比模型生成的描述与数据集提供的真实及幻觉描述，量化模型产生各类幻觉的倾向性。具体操作上，支持按幻觉类别进行分组分析，以揭示模型在不同视觉欺骗场景下的鲁棒性缺陷。由于数据格式为标准Parquet文件，用户可通过HuggingFace Datasets库快速读取，结合自定义的问答或描述生成任务进行评测。典型应用场景包括视觉语言模型的幻觉检测、描述质量评估以及针对性训练数据增强等方向。

背景与挑战

背景概述

在多模态大模型迅猛发展的当下，视觉幻觉（hallucination）问题成为制约其可靠性的关键瓶颈。VHBench-10数据集由whwangovo等研究者在2024年创建，专注于视觉中心型幻觉的基准测试，旨在系统评估和诊断模型在细粒度视觉理解中的幻觉倾向。该数据集收录了近一万个三元组样本，涵盖十个精心划分的幻觉子类别，核心研究问题在于量化模型生成内容与真实视觉信息之间的偏差。VHBench-10的发布填补了视觉幻觉领域缺乏标准化、细粒度评估基准的空白，为相关研究提供了统一评测平台，推动了多模态模型鲁棒性与可信度研究的进展。

当前挑战

该数据集所应对的领域问题尤为突出：当前视觉-语言模型（如LLaVA、GPT-4V）虽能生成流畅描述，却常出现对象识别错误、属性混淆或空间关系扭曲等幻觉现象，严重制约其在自动驾驶、医疗影像等高风险场景的应用。在构建过程中，研究者面临两大挑战：一是如何精准定义并覆盖十类细粒度幻觉类别，确保类别的完备性与互斥性；二是如何自动化生成高质量的真实与幻觉文本对，避免人工标注的主观偏差和规模局限。此外，平衡各类别样本量、确保图像多样性也是维持基准效度的关键难题。

常用场景

经典使用场景

在视觉语言模型飞速发展的当下，如何精准评估模型对图像内容的理解忠实度成为关键议题。VHBench-10数据集应运而生，以其约一万个三元组样本（图像、真实描述、幻觉描述）覆盖十类细粒度幻觉类别，成为评估多模态大模型幻觉现象的权威基准。研究者常将其作为测试床，通过比对模型生成的描述与数据集中精心构造的幻觉描述，量化模型在属性、关系、存在性等维度上的幻觉倾向，从而揭示模型认知的薄弱环节。

解决学术问题

该数据集直指视觉语言模型中最棘手的“幻觉”问题——模型生成虽流畅却与图像事实相悖的描述。此前，学界缺乏一个覆盖全面、粒度精细的标准化评估工具，导致不同研究间难以横向对比。VHBench-10通过系统化构建十类幻觉样本，使得研究者能够精准定位模型在视觉理解中的常见错误模式，如物体混淆、空间关系误判、属性虚构等，为从根本机制上缓解幻觉奠定了量化基础，极大推动了该领域的系统化进展。

衍生相关工作

VHBench-10的发布激发了多项衍生研究，包括基于该数据集训练的幻觉检测器、利用对比学习增强视觉表征鲁棒性的方法、以及融合外部知识图谱进行约束生成的幻觉缓解策略。此外，部分工作借鉴其细粒度分类体系，将十类幻觉标签迁移至其他语言或特定垂直领域的数据集建设中，促进了跨领域幻觉评估的标准化。这些工作共同构建了从评估到防御的幻觉治理研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集