SHALE
收藏arXiv2025-08-13 更新2025-08-15 收录
下载链接:
https://github.com/BeiiiY/SHALE
下载链接
链接失效反馈官方服务:
资源简介:
SHALE数据集由中国科学院计算技术研究所创建,旨在评估大型视觉语言模型(LVLMs)的幻觉现象。该数据集包含超过3万对图像-指令对,涵盖了12种代表性的视觉感知任务和6个主要的知识领域,旨在评估LVLMs在真实世界场景下的稳定性和抗幻觉能力。
提供机构:
中国科学院计算技术研究所
创建时间:
2025-08-13
原始信息汇总
SHALE数据集概述
数据集简介
- 全称:Scalable HALlucination Evaluation benchmark (SHALE)
- 目的:用于评估大型视觉语言模型(LVLMs)的细粒度幻觉现象
- 特点:
- 基于自动化数据构建流程
- 通过细粒度幻觉分类方案评估忠实性和事实性幻觉
- 包含超过30K图像-指令对
数据构成
- 覆盖范围:
- 忠实性评估:12个代表性视觉感知方面
- 事实性评估:6个知识领域
- 场景类型:同时考虑干净和噪声场景
数据结构
- 格式:JSON
- 字段说明:
id:唯一标识符task:任务类型hallucination_type:幻觉类型(忠实性/事实性)evaluation_dimension:评估维度entity_type:实体类型images:图像路径数组instruction:指令文本ground_truth:真实答案
数据获取
- 下载地址:https://1drv.ms/u/c/3990e975c588b26f/EWkj2U7q0fdDuAhQHjpVwt4BlNbFa1T1pz6OZy3usscbtw
- 文件结构:
- 图像存储在
./Image目录 - 指令存储在
./Query目录
- 图像存储在
相关资源
- 评估代码:位于
./Evaluation目录 - 构建代码:正在整理中,即将发布
- 附录文档:
Appendix.pdf
搜集汇总
数据集介绍

构建方式
在构建SHALE数据集时,研究团队采用了一种自动化的数据构建流程,结合了文本到图像生成模型和层次化的幻觉诱导框架。首先,基于12种视觉感知方面和6个知识领域设计了类型特定的提示模板,并通过文本到图像模型生成对应的图像。随后,通过VQAScore等工具进行数据过滤和质量控制,确保图像与提示的语义对齐。最后,设计了包括图像级、指令级和组合级扰动在内的幻觉诱导框架,以模拟现实中的噪声场景。整个过程仅需少量人工验证,确保了数据的可扩展性和多样性。
特点
SHALE数据集具有显著的特点,包括覆盖广泛的视觉感知任务和知识领域,支持细粒度的幻觉评估。数据集包含超过30K的图像-指令对,涵盖了12种视觉感知任务和6种知识领域,同时考虑了干净和噪声场景。此外,SHALE通过自动化的数据生成流程,避免了传统手动标注的高成本和潜在的数据泄漏问题,确保了数据的新颖性和可控性。其层次化的幻觉诱导设计进一步增强了数据集的挑战性和现实适用性。
使用方法
SHALE数据集的使用方法主要包括评估大型视觉语言模型(LVLM)在干净和噪声场景下的幻觉表现。用户可以通过数据集提供的图像-指令对,进行判别性和生成性任务的评估。对于判别性任务,采用准确率作为评估指标;对于生成性任务,则利用LLM-as-a-Judge方法计算非幻觉率。此外,用户还可以通过引入图像级、指令级和组合级扰动,测试模型在不同噪声条件下的鲁棒性。数据集的设计支持全面的幻觉类型评估,包括忠实性幻觉和事实性幻觉,适用于模型性能的全面分析和改进。
背景与挑战
背景概述
SHALE(Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs)是由中国科学院计算技术研究所人工智能安全重点实验室的团队于2025年提出的一个大规模视觉语言模型(LVLM)幻觉评估基准。该数据集旨在解决当前LVLM在生成内容时出现的幻觉问题,即生成与输入图像或世界知识不一致的内容。SHALE通过自动化的数据构建流程,生成了超过30K的图像-指令对,覆盖了12种视觉感知任务和6种知识领域,支持在干净和噪声场景下的全面评估。该数据集的提出填补了现有基准在细粒度幻觉评估方面的空白,并为提升LVLM的实用性和可靠性提供了重要工具。
当前挑战
SHALE面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,SHALE致力于解决LVLM在生成内容时出现的两种主要幻觉类型:忠实性幻觉(faithfulness hallucination)和事实性幻觉(factuality hallucination)。前者涉及模型生成内容与输入图像的不一致,后者涉及生成内容与世界知识的不一致。尤其是事实性幻觉,现有研究对此关注较少,且评估往往较为粗粒度。在构建过程方面,SHALE通过自动化流程生成数据,避免了传统手动标注的高成本和现有数据集可能存在的数据泄露问题。然而,自动化生成也带来了数据质量控制、多样性和可控性等方面的挑战,需要通过多层次的过滤和验证机制来确保数据的准确性和一致性。
常用场景
经典使用场景
SHALE数据集在大型视觉语言模型(LVLMs)的幻觉评估中扮演了关键角色。通过自动化的数据构建流程,该数据集生成了多样化的图像-指令对,支持判别式和生成式任务。其经典的用法包括在干净和噪声场景下评估模型的忠实性和事实性幻觉,涵盖了12种视觉感知任务和6种知识领域。
实际应用
在实际应用中,SHALE数据集为LVLMs的可靠性评估提供了重要工具。例如,在医疗、法律和金融等高风险领域,该数据集可以帮助识别模型生成内容的幻觉倾向,从而避免误导性输出。此外,其噪声场景下的评估能力为模型在真实复杂环境中的鲁棒性优化提供了数据支持。
衍生相关工作
SHALE数据集推动了多项相关研究的发展。基于其构建方法,衍生出了针对特定领域(如医疗影像描述)的幻觉评估基准。同时,该数据集启发了新的幻觉缓解技术,如基于合成数据的对抗训练和提示工程优化。其评估框架也被扩展应用于多模态大语言模型的道德推理等领域。
以上内容由遇见数据集搜集并总结生成



