hallucination-verification dataset
收藏arXiv2025-04-18 更新2025-04-19 收录
下载链接:
https://reverse-vlm.github.io
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个含有超过130万半合成样本的视觉语言模型幻觉验证数据集,由加州大学伯克利分校创建。数据集通过在LLaVA-v1.5-665k数据集的基础上引入错误回答,利用规则算法和gpt-4o-mini-0718模型生成。数据集中的短语用特殊标记进行标注,以训练模型区分自信和不确定的短语,从而在生成过程中进行自我修正。
This is a visual-language model hallucination verification dataset containing over 1.3 million semi-synthetic samples, created by the University of California, Berkeley. Built on the LLaVA-v1.5-665k dataset, it is generated by introducing erroneous responses using rule-based algorithms and the gpt-4o-mini-0718 model. Phrases in the dataset are annotated with special tokens to train models to distinguish between confident and uncertain phrases, thereby enabling self-correction during the generation process.
提供机构:
加州大学伯克利分校
创建时间:
2025-04-18
搜集汇总
数据集介绍

构建方式
hallucination-verification dataset的构建采用了半合成方法,通过扩展LLaVA-v1.5-665k指令调优数据集,生成了包含130万样本的大规模数据集。研究团队设计了多阶段数据增强流程:首先基于规则算法对二元/计数类问题生成负样本,随后利用GPT-4o-mini对复杂长文本答案进行多样化改写。所有负样本均采用特殊标记符</UN>进行标注,并强制在检测到幻觉内容时终止生成,同时保留原始数据集的图像分布特征和问题类型平衡。
使用方法
使用该数据集需采用改进的交叉熵损失函数进行指令微调,对标记符外内容保持标准预测,而对<SPAN>-</UN>区间内的幻觉短语实施零权重屏蔽。推理阶段需配置回溯采样机制:当</UN>标记概率超过阈值τ时,模型将回溯至最近置信点</CN>,通过温度递增的拒绝采样和查询重写进行动态修正。针对开放域任务建议采用两阶段解码策略,先进行常规生成再对未响应问题添加修正提示。
背景与挑战
背景概述
幻觉验证数据集(hallucination-verification dataset)由加州大学伯克利分校的研究团队于2025年提出,旨在解决视觉语言模型(VLMs)中普遍存在的视觉幻觉问题。该数据集包含超过130万半合成样本,通过特殊标记的幻觉短语和真实短语,为模型提供了丰富的训练素材。研究团队提出的REVERSE框架首次将生成调整与事后验证相结合,通过回溯重采样技术实现了模型的自验证与动态修正。这一创新显著提升了模型在CHAIR-MSCOCO和HaloQuest等基准测试上的表现,为安全关键领域的多模态应用提供了更可靠的技术支持。
当前挑战
该数据集主要解决视觉语言模型生成虚假对象、动作或概念的领域挑战,其核心难点在于:1)现有生成调整方法依赖启发式规则且缺乏修正机制;2)事后验证方法需要多个外部模型且倾向于拒绝输出而非修正。在构建过程中,研究团队面临半合成数据质量控制的挑战,包括:1)如何平衡正负样本比例以保持数据多样性;2)设计有效的短语级标记策略(如</CN>和</UN>标记)来指导模型识别幻觉;3)确保自动生成的幻觉短语在语义和语法上的合理性。
常用场景
经典使用场景
在视觉语言模型(VLMs)的研究中,hallucination-verification dataset被广泛应用于评估和减少模型生成的视觉幻觉现象。该数据集通过提供大量半合成样本,帮助研究者训练模型识别和修正生成过程中的错误描述。经典使用场景包括图像描述生成和视觉问答任务,其中模型需要准确描述图像内容而不引入不存在的信息。
解决学术问题
该数据集解决了视觉语言模型中常见的视觉幻觉问题,即模型生成与图像内容不符的对象、动作或概念。通过提供带有标记的幻觉样本,数据集使研究者能够开发新的训练和解码策略,如REVERSE框架,从而显著减少幻觉现象。这一进展对于提升模型在安全关键应用中的可靠性具有重要意义。
实际应用
在实际应用中,hallucination-verification dataset被用于开发更可靠的视觉语言模型,特别是在需要高准确性的场景,如自动驾驶辅助系统、医疗图像分析和视觉辅助技术。通过减少幻觉,这些模型能够提供更准确的图像描述和问答反馈,从而提升用户体验和系统安全性。
数据集最近研究
最新研究方向
近年来,视觉语言模型(VLMs)在图像理解和多模态任务中取得了显著进展,但其生成的文本中常出现视觉幻觉问题,即描述图像中不存在的对象或行为。针对这一问题,最新的研究方向集中在开发统一的框架,如REVERSE,该框架通过整合幻觉感知训练和实时自验证技术,显著减少了幻觉现象。REVERSE利用包含130万半合成样本的幻觉验证数据集,结合创新的推理时回顾重采样技术,使模型能够在生成过程中检测并动态修正幻觉。实验表明,该方法在CHAIR-MSCOCO和HaloQuest等基准测试中分别实现了12%和28%的性能提升,成为当前最先进的幻觉缓解方案。这一进展不仅提升了VLMs在安全关键应用中的可靠性,还为多模态模型的自我修正机制开辟了新的研究路径。
相关研究论文
- 1Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling加州大学伯克利分校 · 2025年
以上内容由遇见数据集搜集并总结生成



