MM-Hallu/VHBench-10
收藏Hugging Face2026-04-30 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/MM-Hallu/VHBench-10
下载链接
链接失效反馈官方服务:
资源简介:
VHBench-10是一个以视觉为中心的幻觉基准数据集,包含约10,000个样本,涵盖10个细粒度的幻觉类别。每个样本由三元组组成:(图像、真实标题、幻觉标题)。字段包括:image(输入图像)、image_name(图像文件名)、original(真实标题)、hallucination(幻觉标题)、type(幻觉类别)。
Vision-centric hallucination benchmark with ~10,000 samples across 10 fine-grained hallucination categories. Each sample is a ternary of (image, real caption, hallucinated caption). Fields include: image (input image), image_name (image filename), original (ground truth caption), hallucination (hallucinated caption), type (hallucination category).
提供机构:
MM-Hallu
搜集汇总
数据集介绍

构建方式
VHBench-10数据集是专为视觉中心幻觉评估而构建的基准测试资源,包含近一万个精心设计的样本,覆盖十种细粒度幻觉类别。每个样本以三元组形式组织,由输入图像、真实描述文本以及对应的幻觉描述文本构成。其中,真实描述来自人工或可靠模型生成的准确陈述,而幻觉描述则通过引入与图像内容矛盾或无关的信息合成,确保每一对样本能精准指向特定幻觉类型。数据来源基于现有公开图像库,经过严格筛选与标注流程,最终以Parquet格式存储于HuggingFace平台,便于高效加载与分发。
特点
该数据集的核心特点在于其细致入微的幻觉分类体系,涵盖十种不同类型的视觉幻觉现象,为研究者提供了系统化的评估维度。每个样本均明确标注所属幻觉类别,支持对模型在特定幻觉倾向上的表现进行深入剖析。此外,数据规模适中,约一万条样本在保证统计意义的同时避免了过大的计算开销,适合作为模型开发阶段的验证基准。图像与文本的配对结构简洁明确,便于与多种视觉-语言模型架构兼容,尤其适用于测评模型在描述生成任务中抵抗虚假信息的能力。
使用方法
使用时,研究者可将数据集直接加载为评估管线中的测试集,通过对比模型生成的描述与数据集提供的真实及幻觉描述,量化模型产生各类幻觉的倾向性。具体操作上,支持按幻觉类别进行分组分析,以揭示模型在不同视觉欺骗场景下的鲁棒性缺陷。由于数据格式为标准Parquet文件,用户可通过HuggingFace Datasets库快速读取,结合自定义的问答或描述生成任务进行评测。典型应用场景包括视觉语言模型的幻觉检测、描述质量评估以及针对性训练数据增强等方向。
背景与挑战
背景概述
在多模态大模型迅猛发展的当下,视觉幻觉(hallucination)问题成为制约其可靠性的关键瓶颈。VHBench-10数据集由whwangovo等研究者在2024年创建,专注于视觉中心型幻觉的基准测试,旨在系统评估和诊断模型在细粒度视觉理解中的幻觉倾向。该数据集收录了近一万个三元组样本,涵盖十个精心划分的幻觉子类别,核心研究问题在于量化模型生成内容与真实视觉信息之间的偏差。VHBench-10的发布填补了视觉幻觉领域缺乏标准化、细粒度评估基准的空白,为相关研究提供了统一评测平台,推动了多模态模型鲁棒性与可信度研究的进展。
当前挑战
该数据集所应对的领域问题尤为突出:当前视觉-语言模型(如LLaVA、GPT-4V)虽能生成流畅描述,却常出现对象识别错误、属性混淆或空间关系扭曲等幻觉现象,严重制约其在自动驾驶、医疗影像等高风险场景的应用。在构建过程中,研究者面临两大挑战:一是如何精准定义并覆盖十类细粒度幻觉类别,确保类别的完备性与互斥性;二是如何自动化生成高质量的真实与幻觉文本对,避免人工标注的主观偏差和规模局限。此外,平衡各类别样本量、确保图像多样性也是维持基准效度的关键难题。
常用场景
经典使用场景
在视觉语言模型飞速发展的当下,如何精准评估模型对图像内容的理解忠实度成为关键议题。VHBench-10数据集应运而生,以其约一万个三元组样本(图像、真实描述、幻觉描述)覆盖十类细粒度幻觉类别,成为评估多模态大模型幻觉现象的权威基准。研究者常将其作为测试床,通过比对模型生成的描述与数据集中精心构造的幻觉描述,量化模型在属性、关系、存在性等维度上的幻觉倾向,从而揭示模型认知的薄弱环节。
解决学术问题
该数据集直指视觉语言模型中最棘手的“幻觉”问题——模型生成虽流畅却与图像事实相悖的描述。此前,学界缺乏一个覆盖全面、粒度精细的标准化评估工具,导致不同研究间难以横向对比。VHBench-10通过系统化构建十类幻觉样本,使得研究者能够精准定位模型在视觉理解中的常见错误模式,如物体混淆、空间关系误判、属性虚构等,为从根本机制上缓解幻觉奠定了量化基础,极大推动了该领域的系统化进展。
衍生相关工作
VHBench-10的发布激发了多项衍生研究,包括基于该数据集训练的幻觉检测器、利用对比学习增强视觉表征鲁棒性的方法、以及融合外部知识图谱进行约束生成的幻觉缓解策略。此外,部分工作借鉴其细粒度分类体系,将十类幻觉标签迁移至其他语言或特定垂直领域的数据集建设中,促进了跨领域幻觉评估的标准化。这些工作共同构建了从评估到防御的幻觉治理研究生态。
以上内容由遇见数据集搜集并总结生成



