MM-Hallu/VHTest
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/MM-Hallu/VHTest
下载链接
链接失效反馈官方服务:
资源简介:
VHTest是一个视觉幻觉测试基准,涵盖了8个类别:颜色、计数、存在、OCR、方向、位置、形状和大小。总共有2400个条目(1200个开放式问题和1200个是/否问题),分布在约650张图像中。每个条目都标有`question_type`(OEQ或YNQ)和`category`。OEQ条目使用`question`/`reference_answer`字段;YNQ条目使用`yes_no_question`/`yes_no_ground_truth`字段。
A visual hallucination test benchmark covering 8 categories: color, counting, existence, OCR, orientation, position, shape, and size. Contains 2400 total entries (1200 open-ended questions and 1200 yes/no questions) across approximately 650 images. Each entry is tagged with `question_type` (OEQ or YNQ) and `category`. OEQ entries use the `question`/`reference_answer` fields; YNQ entries use the `yes_no_question`/`yes_no_ground_truth` fields.
提供机构:
MM-Hallu
搜集汇总
数据集介绍

构建方式
VHTest数据集专为评估多模态大模型的视觉幻觉现象而构建,覆盖颜色、计数、存在性、OCR、方向、位置、形状和尺寸共八类核心视觉属性。该数据集基于约650张图像,精心设计了2400条测试条目,其中包含1200个开放式问题与1200个是否型问题,确保对模型视觉感知能力的全面考察。每个条目均标注了问题类型与所属类别,以便于针对性地分析模型在不同视觉维度上的幻觉倾向。
特点
VHTest数据集的特点在于其结构化的双轨测试设计:开放式问题与是否型问题并行,前者通过`question`与`reference_answer`字段记录,后者则依赖`yes_no_question`与`yes_no_ground_truth`字段。这种设计既允许自由回答的深度评估,也支持二元判定的精确度量。八类视觉属性的涵盖使得数据集能系统性地暴露模型在特定视觉推理任务中的虚构倾向,为视觉幻觉研究提供了多维度的基准测试框架。
使用方法
使用VHTest数据集时,研究者可通过`category`字段筛选特定视觉属性的测试样本,如仅评估模型在颜色或计数任务上的表现。对于开放式问题,需将模型生成的回答与`reference_answer`进行语义匹配或关键信息抽取;对于是否型问题,则直接比对模型输出与`yes_no_ground_truth`以计算准确率。该数据集已预设`train`分割,包含全部2400个样本,可直接加载用于模型幻觉检测或鲁棒性评估实验。
背景与挑战
背景概述
VHTest是一个专为评估多模态大模型视觉幻觉问题而设计的测试基准,由研究团队在2025年创建,旨在系统性地检测模型在视觉理解任务中的幻觉现象。该基准涵盖颜色、计数、存在性、OCR、方向、位置、形状和大小共8个核心视觉类别,包含约650张图像和2400条测试条目,其中开放式问题和是非题各占1200条。VHTest通过细粒度的分类标签与双题型设计,为分析和定位模型在特定视觉属性上的幻觉倾向提供了标准化工具,对提升多模态模型的可靠性与鲁棒性具有重要推动作用。
当前挑战
VHTest所解决的领域挑战在于,当前多模态大模型在生成描述时常出现与图像事实不符的幻觉内容,尤其在颜色、位置、形状等精确视觉属性上错误频发,而现有基准难以系统性地检测和分类这些错误。在构建过程中,挑战体现在如何设计覆盖多样化视觉属性的测试条目,确保每张图像的测试内容既能精准对应某一属性,又避免歧义;同时,构建开放式与是非题的双轨格式,需要严格标注标准答案与真实标签,以支持对模型幻觉类型的定量分析,这对数据质量和标注一致性提出了极高要求。
常用场景
经典使用场景
VHTest数据集专为评估多模态大语言模型在视觉感知中的幻觉现象而设计,其经典使用场景聚焦于系统性地检测模型对图像内容的理解是否产生偏离事实的响应。该数据集涵盖颜色、计数、存在性、OCR、方向、位置、形状和尺寸等八大基础视觉类别,通过精心设计的开放式问题(OEQ)与是非问句(YNQ)两种形式,全面叩问模型在细节感知上的可靠性。研究者可将模型在此测试基准上的表现视为衡量其视觉可信度的关键指标,从而实现对不同多模态架构幻觉鲁棒性的横向比较。
实际应用
在实际应用层面,VHTest可嵌入多模态系统的质量保障流程,用于自动化筛选存在高度幻觉风险的问答对。例如,在智能客服、视觉问答机器人或辅助驾驶的视觉理解模块中,部署前使用VHTest进行压力测试,能够提前暴露模型在颜色、方位或尺寸判断上的失效边界。此外,该数据集还可服务于模型微调阶段的难例挖掘,帮助开发者优先修正那些易引发用户误解的视觉感知盲区,从而提升产品在真实场景中的输出可信度与用户体验满意度。
衍生相关工作
围绕VHTest的测试框架,学术界已衍生出若干富有启发性的后续工作。一方面,研究者尝试依据该数据集的类别标签对幻觉成因进行归因分析,进而提出针对性数据增强策略,如对计数与位置类问题施加对比学习信号;另一方面,基于其双问题格式的设计思路,出现了将OEQ与YNQ预测结果进行联合校准的轻量级幻觉修正模块。此外,VHTest所揭示的类别不平衡幻觉现象,也催生了跨类别迁移的去幻觉微调方法,这些工作共同构成了多模态幻觉研究从检测到矫正的完整链条。
以上内容由遇见数据集搜集并总结生成



