ViHallu-Instruction

Name: ViHallu-Instruction
Creator: 上海大学
Published: 2025-07-30 00:53:27
License: 暂无描述

arXiv2025-07-30 更新2025-07-31 收录

下载链接：

https://github.com/oliviadzy/ViHallu

下载链接

链接失效反馈

官方服务：

资源简介：

ViHallu-Instruction数据集由上海大学的研究团队创建，旨在解决大型视觉语言模型（LVLMs）中视觉幻觉问题。该数据集包含经过精心策划的视觉变化图像，通过引入可控的视觉变化，同时保持整体图像结构，帮助LVLMs更好地理解细粒度的视觉内容。数据集还包含了高质量的指令数据，用于指导LVLMs进行细粒度视觉语义对齐。ViHallu-Instruction数据集的创建过程结合了文本引导和分割掩码控制，生成了符合指定标题并保持原始图像全局结构的视觉变化图像。该数据集适用于LVLMs的幻觉缓解和视觉语义对齐研究，旨在提升LVLMs在视觉理解方面的性能。

The ViHallu-Instruction dataset was created by the research team from Shanghai University, aiming to address the visual hallucination issue in Large Vision-Language Models (LVLMs). This dataset includes carefully curated visually altered images, where controlled visual changes are introduced while preserving the overall image structure, to help LVLMs better understand fine-grained visual content. The dataset also contains high-quality instruction data for guiding LVLMs to achieve fine-grained visual-semantic alignment. The construction of the ViHallu-Instruction dataset combines text guidance and segmentation mask control to generate visually altered images that conform to the specified captions and maintain the global structure of the original images. This dataset is applicable to research on hallucination mitigation and visual-semantic alignment for LVLMs, with the goal of improving the visual understanding performance of LVLMs.

提供机构：

上海大学

创建时间：

2025-07-30

原始信息汇总

ViHallu数据集概述

数据集状态

代码和完整数据集将于下个月发布

其他信息

作者当前正在寻找PhD职位

搜集汇总

数据集介绍

构建方式

在视觉-语言模型领域，幻觉现象一直是制约模型性能的关键问题。ViHallu-Instruction数据集的构建采用了创新的视觉变体图像生成方法，通过结合文本引导和分割掩码控制技术，生成在保持整体图像结构的同时具有可控局部变化的样本。具体流程包括原始图像标注与分割掩码提取、基于概念替换的标注编辑、以及通过ControlNet++模型生成视觉变体图像并采用VQAScore指标进行质量评估。在指令构建阶段，利用Grounded-SAM进行对象检测确保全面覆盖，通过DeepSeek-chat V2生成多样化问题，并采用多专家模型共识机制进行质量过滤，最终形成包含6,770张图像和约50k指令的高质量数据集。

特点

该数据集的核心特点体现在其专注于细粒度视觉语义对齐的独特设计。通过精心构建的视觉变体图像对，数据集在保持场景整体一致性的同时，针对特定对象类别或属性进行精确修改，形成具有微妙差异的对比样本。这种设计迫使模型必须依赖视觉证据而非统计先验进行判断。数据集包含丰富的指令类型，涵盖对象存在性、属性描述和空间关系等多维度问题，特别针对LVLMs常见的幻觉类型进行针对性设计。每个图像平均配备7-8个高质量QA对，经过多模型共识验证，确保问题与图像内容的高度一致性。数据集的另一显著特点是包含反事实干预样本，将对象置于非常见场景中，有效减少共现对象间的虚假关联。

使用方法

该数据集主要用于提升大型视觉-语言模型的视觉语义对齐能力与幻觉缓解。研究人员可通过微调方式将数据集应用于现有LVLMs，建议采用完整参数微调或LoRA等参数高效微调方法。使用时应保持原始图像与变体图像的配对关系，充分利用对比样本的细粒度差异特性。对于基准测试，推荐采用POPE、LLaVA-Bench和MMHal-Bench等多维度评估体系，全面衡量模型在对象存在性判断、细节描述和复杂推理等方面的改进。实践表明，即使使用数据集的部分子集（500-2000张图像）进行微调，也能显著提升模型性能。为获得最佳效果，建议将本数据集与其他视觉指令数据集结合使用，在保持模型通用能力的同时专项提升抗幻觉性能。

背景与挑战

背景概述

ViHallu-Instruction数据集由上海大学的Ziyun Dai等人于2025年提出，旨在解决大型视觉语言模型（LVLMs）中的幻觉问题。该数据集通过生成视觉变体图像和构建精细的视觉指令，增强模型的视觉-语义对齐能力。ViHallu框架整合了文本引导和分割掩码控制技术，生成具有可控局部变化的图像，同时保持整体结构一致性。ViHallu-Instruction包含6,770张图像及约50,000条指令，专门用于细粒度视觉理解和幻觉缓解研究。该数据集的发布为视觉-语义对齐领域的研究提供了重要资源。

当前挑战

ViHallu-Instruction数据集面临的挑战主要包括两方面：领域问题方面，LVLMs在处理细粒度视觉区分时存在显著困难，例如在语义相似场景中易产生对象误识别或属性误判；构建过程方面，高质量视觉变体图像的生成需要精确控制局部变化同时保持全局结构，而自然数据集中此类样本稀缺。此外，指令数据的构建需确保问题覆盖所有图像对象，并有效识别和纠正LVLMs生成的描述中的幻觉内容，这对质量控制提出了较高要求。

常用场景

经典使用场景

在视觉语言模型（LVLM）的研究中，ViHallu-Instruction数据集被广泛应用于减少模型在生成文本时出现的视觉幻觉现象。通过提供精细的视觉变化图像和高质量指令数据，该数据集帮助模型更好地理解图像内容，从而生成更准确的文本描述。经典使用场景包括图像描述生成、视觉问答（VQA）和多模态推理任务。

实际应用

在实际应用中，ViHallu-Instruction数据集被用于医疗诊断、自动驾驶等关键领域，这些领域对模型的视觉理解和文本生成准确性要求极高。通过使用该数据集，模型能够更准确地识别图像中的对象及其属性，减少错误描述，从而提升整体性能和应用效果。

衍生相关工作

ViHallu-Instruction数据集衍生了一系列相关研究工作，例如基于视觉变化图像的生成方法、视觉指令数据的构建范式，以及针对LVLM幻觉问题的多种优化策略。这些工作进一步推动了视觉语言模型在视觉语义对齐和幻觉减少方面的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集