SHALE
收藏arXiv2025-08-14 更新2025-08-16 收录
下载链接:
https://doi.org/10.1145/3746027.3758308
下载链接
链接失效反馈官方服务:
资源简介:
SHALE是一个针对大型视觉语言模型(LVLMs)细粒度幻觉评估的可扩展基准数据集。该数据集由中国科学院计算技术研究所的研究团队构建,旨在评估LVLMs在忠实度和事实性幻觉方面的表现。数据集包含超过3万个图像-指令对,涵盖了12个代表性的视觉感知方面和6个主要的知识领域,同时考虑了干净和噪声场景。该数据集是通过自动化的数据构建流程生成的,具有可扩展性、可控性和多样性。数据集的构建过程包括提示设计、图像生成和指令生成三个阶段,并采用了层次化的幻觉诱导框架,通过图像级别、指令级别和组合级别的输入扰动来模拟现实中的噪声场景。SHALE数据集的构建旨在解决现有基准数据集在规模、数据泄露和细粒度评估方面的局限性,为LVLMs的稳定性和幻觉抵抗能力提供全面和精细的评估。
SHALE is a scalable benchmark dataset for fine-grained hallucination evaluation of Large Vision-Language Models (LVLMs). The dataset was constructed by the research team from the Institute of Computing Technology, Chinese Academy of Sciences, aiming to evaluate the performance of LVLMs in terms of faithfulness and factual hallucinations. It contains over 30,000 image-instruction pairs, covering 12 representative visual perception aspects and 6 major knowledge domains, while considering both clean and noisy scenarios. Generated through an automated data construction pipeline, the dataset features scalability, controllability, and diversity. Its construction process consists of three stages: prompt design, image generation, and instruction generation, and it adopts a hierarchical hallucination induction framework that simulates real-world noisy scenarios via input perturbations at the image-level, instruction-level, and compositional-level. The development of the SHALE dataset aims to address the limitations of existing benchmark datasets in terms of scale, data leakage, and fine-grained evaluation, providing comprehensive and meticulous assessments for the stability and hallucination resistance of LVLMs.
提供机构:
中国科学院计算技术研究所
创建时间:
2025-08-13
搜集汇总
数据集介绍

构建方式
SHALE数据集的构建采用了自动化的数据生成流程,结合了文本到图像生成模型和层次化的幻觉诱导框架。首先,基于12种视觉感知方面和6个知识领域设计了类型特定的提示模板,利用扩散模型生成图像,并通过VQAScore等工具进行质量过滤。随后,通过指令模板生成多样化的图像-指令对,支持判别性和生成性任务。此外,数据集引入了图像级、指令级和组合级的输入扰动,模拟现实中的噪声场景,以评估模型在复杂环境下的幻觉抵抗能力。
特点
SHALE数据集具有高度的可扩展性和多样性,包含超过30K的图像-指令对,覆盖了12种视觉感知任务和6个知识领域。其特点在于细粒度的幻觉分类方案,能够同时评估忠实性幻觉和事实性幻觉。此外,数据集通过自动化的构建流程减少了人工干预,确保了数据的可控性和一致性,同时通过噪声场景的引入增强了评估的挑战性和现实性。
使用方法
SHALE数据集的使用方法主要包括判别性任务和生成性任务的评估。在判别性任务中,通过直接匹配模型输出的选项与真实答案计算准确率;在生成性任务中,则采用LLM-as-a-Judge协议,利用外部语言模型判断响应是否无幻觉。此外,数据集支持在干净和噪声场景下的评估,通过抵抗率(RR)等指标量化模型对扰动的鲁棒性。用户可以通过提供的指令模板和评估脚本,快速集成到现有的模型测试流程中。
背景与挑战
背景概述
SHALE(Scalable HALlucination Evaluation benchmark)是由中国科学院计算技术研究所、华为可信技术与工程实验室等机构的研究团队于2025年提出的多模态大模型(LVLM)幻觉评估基准。该数据集针对视觉-语言模型在生成内容时出现的与输入图像不一致(faithfulness hallucination)或与事实知识冲突(factuality hallucination)的问题,通过自动化数据构建流程生成了包含3万多个图像-指令对的大规模评估集,覆盖12类视觉感知维度和6大知识领域。作为首个支持细粒度幻觉分类的基准,SHALE通过分层扰动框架模拟真实噪声场景,显著提升了幻觉评估的系统性和可扩展性,为LVLM的可靠性研究提供了重要工具。
当前挑战
SHALE面临的挑战主要体现在两个方面:领域问题层面,现有LVLM存在显著的事实性幻觉问题,尤其在空间关系、尺寸关系等细粒度视觉感知任务中错误率高达40%,且对语义扰动(如误导性指令前缀)的抵抗率仅为36.9%;数据构建层面,需平衡生成数据的多样性与可控性,解决传统基准依赖人工标注导致的扩展性不足问题,同时避免从公开数据集采样引发的数据泄露风险。此外,文本到图像生成模型的固有局限使合成数据难以完全复现真实场景的复杂性,这对评估结果的泛化性提出了挑战。
常用场景
经典使用场景
在大型视觉语言模型(LVLMs)的研究中,SHALE数据集被广泛应用于评估模型在生成内容时出现的幻觉现象。通过自动化的数据构建流程,SHALE提供了超过30K的图像-指令对,覆盖了12种视觉感知任务和6种知识领域,使得研究者能够在干净和噪声场景下全面评估模型的幻觉问题。
实际应用
在实际应用中,SHALE数据集不仅用于评估模型的幻觉问题,还可用于模型的微调和优化。例如,通过利用其自动化的数据生成流程,研究者可以构建针对性的训练数据集,以增强模型在噪声环境下的鲁棒性,减少幻觉现象的发生。
衍生相关工作
SHALE数据集的推出催生了一系列相关研究,特别是在幻觉检测和模型优化领域。例如,基于SHALE的评估结果,研究者开发了新的幻觉缓解技术,如基于对抗训练的模型优化方法。此外,SHALE的自动化数据构建流程也被其他研究借鉴,用于构建更多样化和可控的评估数据集。
以上内容由遇见数据集搜集并总结生成



