five

hallucination-verification dataset|视觉语言模型数据集|幻觉验证数据集

收藏
arXiv2025-04-18 更新2025-04-19 收录
视觉语言模型
幻觉验证
下载链接:
https://reverse-vlm.github.io
下载链接
链接失效反馈
资源简介:
该数据集是一个含有超过130万半合成样本的视觉语言模型幻觉验证数据集,由加州大学伯克利分校创建。数据集通过在LLaVA-v1.5-665k数据集的基础上引入错误回答,利用规则算法和gpt-4o-mini-0718模型生成。数据集中的短语用特殊标记进行标注,以训练模型区分自信和不确定的短语,从而在生成过程中进行自我修正。
提供机构:
加州大学伯克利分校
创建时间:
2025-04-18
AI搜集汇总
数据集介绍
main_image_url
构建方式
hallucination-verification dataset的构建采用了半合成方法,通过扩展LLaVA-v1.5-665k指令调优数据集,生成了包含130万样本的大规模数据集。研究团队设计了多阶段数据增强流程:首先基于规则算法对二元/计数类问题生成负样本,随后利用GPT-4o-mini对复杂长文本答案进行多样化改写。所有负样本均采用特殊标记符</UN>进行标注,并强制在检测到幻觉内容时终止生成,同时保留原始数据集的图像分布特征和问题类型平衡。
使用方法
使用该数据集需采用改进的交叉熵损失函数进行指令微调,对标记符外内容保持标准预测,而对<SPAN>-</UN>区间内的幻觉短语实施零权重屏蔽。推理阶段需配置回溯采样机制:当</UN>标记概率超过阈值τ时,模型将回溯至最近置信点</CN>,通过温度递增的拒绝采样和查询重写进行动态修正。针对开放域任务建议采用两阶段解码策略,先进行常规生成再对未响应问题添加修正提示。
背景与挑战
背景概述
幻觉验证数据集(hallucination-verification dataset)由加州大学伯克利分校的研究团队于2025年提出,旨在解决视觉语言模型(VLMs)中普遍存在的视觉幻觉问题。该数据集包含超过130万半合成样本,通过特殊标记的幻觉短语和真实短语,为模型提供了丰富的训练素材。研究团队提出的REVERSE框架首次将生成调整与事后验证相结合,通过回溯重采样技术实现了模型的自验证与动态修正。这一创新显著提升了模型在CHAIR-MSCOCO和HaloQuest等基准测试上的表现,为安全关键领域的多模态应用提供了更可靠的技术支持。
当前挑战
该数据集主要解决视觉语言模型生成虚假对象、动作或概念的领域挑战,其核心难点在于:1)现有生成调整方法依赖启发式规则且缺乏修正机制;2)事后验证方法需要多个外部模型且倾向于拒绝输出而非修正。在构建过程中,研究团队面临半合成数据质量控制的挑战,包括:1)如何平衡正负样本比例以保持数据多样性;2)设计有效的短语级标记策略(如</CN>和</UN>标记)来指导模型识别幻觉;3)确保自动生成的幻觉短语在语义和语法上的合理性。
常用场景
经典使用场景
在视觉语言模型(VLMs)的研究中,hallucination-verification dataset被广泛应用于评估和减少模型生成的视觉幻觉现象。该数据集通过提供大量半合成样本,帮助研究者训练模型识别和修正生成过程中的错误描述。经典使用场景包括图像描述生成和视觉问答任务,其中模型需要准确描述图像内容而不引入不存在的信息。
解决学术问题
该数据集解决了视觉语言模型中常见的视觉幻觉问题,即模型生成与图像内容不符的对象、动作或概念。通过提供带有标记的幻觉样本,数据集使研究者能够开发新的训练和解码策略,如REVERSE框架,从而显著减少幻觉现象。这一进展对于提升模型在安全关键应用中的可靠性具有重要意义。
实际应用
在实际应用中,hallucination-verification dataset被用于开发更可靠的视觉语言模型,特别是在需要高准确性的场景,如自动驾驶辅助系统、医疗图像分析和视觉辅助技术。通过减少幻觉,这些模型能够提供更准确的图像描述和问答反馈,从而提升用户体验和系统安全性。
数据集最近研究
最新研究方向
近年来,视觉语言模型(VLMs)在图像理解和多模态任务中取得了显著进展,但其生成的文本中常出现视觉幻觉问题,即描述图像中不存在的对象或行为。针对这一问题,最新的研究方向集中在开发统一的框架,如REVERSE,该框架通过整合幻觉感知训练和实时自验证技术,显著减少了幻觉现象。REVERSE利用包含130万半合成样本的幻觉验证数据集,结合创新的推理时回顾重采样技术,使模型能够在生成过程中检测并动态修正幻觉。实验表明,该方法在CHAIR-MSCOCO和HaloQuest等基准测试中分别实现了12%和28%的性能提升,成为当前最先进的幻觉缓解方案。这一进展不仅提升了VLMs在安全关键应用中的可靠性,还为多模态模型的自我修正机制开辟了新的研究路径。
相关研究论文
  • 1
    Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling加州大学伯克利分校 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

Amazon Reviews 2023

该数据集包含用户评论,如评分、评论文本、有用投票等,以及商品元数据,如产品描述、定价、图片等。数据集比以前的版本大245.2%,包含571.54M条评论,并具有更丰富的描述性商品特征和细粒度的时间戳。

github 收录

ADNI

阿尔茨海默病神经影像研究计划 (ADNI) 是一项多站点研究,旨在改善预防和治疗阿尔茨海默病 (AD) 的临床试验。[1] 这项合作研究结合了私营和公共部门的专业知识和资金,以研究患有AD的受试者,以及那些可能发展成AD和控制没有认知障碍迹象的人。[2] 美国和加拿大63个地点的研究人员通过神经影像学,生化,和遗传生物标记。[2][3] 这些知识有助于找到更好的预防和治疗AD的临床试验。ADNI已经产生了全球性的影响,[4] 首先是通过开发一套标准化的协议,以允许对来自多个中心的结果进行比较,[4] 其次是其数据共享政策,该政策使所有数据在没有禁运的情况下提供给世界各地的合格研究人员。[5] 迄今为止,超过1000份科学出版物使用了ADNI数据。[6] 许多其他与AD和其他疾病相关的计划已经使用ADNI作为模型来设计和实施。[4] ADNI一直在2004年运行,目前2021年获得资助。

OpenDataLab 收录