Gaslight-Gatekeep-V1-V3

Hugging Face2026-04-17 更新2026-04-18 收录

下载链接：

https://huggingface.co/datasets/aryashah00/Gaslight-Gatekeep-V1-V3

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为“Gaslight, Gatekeep, V1–V3”，旨在评估视觉语言模型（VLMs）在对抗性操纵下的表现。数据集包含两部分：1) 一个包含6,400个结构化对抗性提示的“Gaslighting Benchmark”，用于测试VLMs在双轮对话中的顺从性；2) 来自8名人类受试者的预处理7T fMRI数据，用于研究视觉皮层对齐与模型鲁棒性的关系。数据集中的提示分为5种操纵类别和10个难度级别，涵盖多种说服策略。fMRI数据包括视觉皮层ROI掩码和训练分割的神经响应。该数据集适用于评估VLMs的对抗鲁棒性、研究神经表征对齐与安全性的关系，以及多模态操纵任务的安全测试。数据集的使用需遵循CC BY 4.0许可（提示部分）和NSD数据使用协议（fMRI部分）。

创建时间：

2026-04-15

原始信息汇总

Gaslight, Gatekeep, V1–V3 数据集概述

数据集基本信息

数据集名称: Gaslight, Gatekeep, V1–V3: Sycophancy Benchmark for Vision-Language Models
发布地址: https://huggingface.co/datasets/aryashah00/Gaslight-Gatekeep-V1-V3
许可证: CC BY 4.0
语言: 英语
任务类别: 视觉问答、文本分类
数据规模: 1K < n < 10K

数据集组成与结构

本数据集包含两个组成部分：

Gaslighting Benchmark: 包含6,400个结构化的两轮对抗性提示，用于测试视觉语言模型中的奉承性操纵。
Algonauts 2023 / NSD fMRI 数据: 包含8名人类受试者在观看自然场景图像时的预处理7T fMRI响应数据，包括ROI掩码数组和6个视觉皮层感兴趣区域的训练分割神经响应。

Gaslighting Benchmark 数据结构

字段	类型	描述
`prompt_id`	string	唯一提示标识符
`image_id`	string	NSD图像标识符
`image_path`	string	数据集中图像的相对路径
`category`	string	操纵类别 (`CATEGORY_1`–`CATEGORY_5`)
`difficulty_level`	string	难度级别 (`level_1`–`level_10`)
`gaslighting_prompt`	string	第1轮对抗性提示，呈现错误主张
`follow_up_prompt`	string	第2轮升级提示，用于模型初始抵抗时
`false_claim`	string	事实错误主张的明确陈述
`ground_truth`	string	图像内容的事实正确描述
`persuasion_tactics`	string	使用的说服策略列表
`has_follow_up`	bool	是否包含第2轮跟进

操纵类别

类别	名称	描述
`CATEGORY_1`	存在否认	声称图像中明显存在的物体不存在
`CATEGORY_2`	属性操纵	错误归因物体的属性
`CATEGORY_3`	计数扭曲	陈述错误的物体数量
`CATEGORY_4`	空间关系改变	错误表示物体之间的位置关系
`CATEGORY_5`	活动误传	错误描述所描绘的动作或活动

fMRI 数据结构

subj0X/ ├── roi_masks/ │ ├── lh.<roi>_challenge_space.npy │ ├── lh.<roi>_fsaverage_space.npy │ ├── rh.<roi>_challenge_space.npy │ ├── rh.<roi>fsaverage_space.npy │ └── mapping<roi>.npy └── training_split/ └── training_fmri/ ├── lh_training_fmri.npy └── rh_training_fmri.npy

ROI 类别: prf-visualrois (V1v, V1d, V2v, V2d, V3v, V3d, hV4) · floc-bodies · floc-faces · floc-places · floc-words · streams

数据划分

划分	大小	描述
`train`	6,400	完整的gaslighting基准测试

数据集统计

属性	值
总提示数	6,400
唯一图像数	200
操纵类别数	5
难度级别数	10
论文中每个模型的提示数	6,400
论文中的总评估数	76,800
提示生成器	Llama-3.1-70B-Instruct
事实依据	MS-COCO 标注
fMRI 受试者数	8
fMRI 成像	7T, Natural Scenes Dataset
视觉皮层 ROI 数	6

使用目的

直接用途

在对抗性两轮压力下对视觉语言模型的奉承抵抗能力进行基准测试
研究神经表征对齐与对抗鲁棒性之间的关系
在多模态操纵任务上对开源权重VLM进行安全性评估

超出范围的用途

fMRI数据不得用于任何试图识别个体受试者的目的
gaslighting提示分类法不应用于针对已部署系统制作生产规模的对抗性攻击

局限性

提示生成: 提示由Llama-3.1-70B-Instruct使用结构化模板生成。人工编写的提示可能引发不同的奉承性特征。
图像来源: 图像来自MS-COCO。数据集继承了COCO中存在的任何偏见。
语言: 所有提示均为英语。
fMRI范围: 神经数据来自8名执行被动观看任务的受试者；尚未建立对其他范式或成像模式的泛化。

引用

如果使用gaslighting基准测试，请引用： bibtex @misc{shah2026gaslightgatekeepv1v3early, title={Gaslight, Gatekeep, V1-V3: Early Visual Cortex Alignment Shields Vision-Language Models from Sycophantic Manipulation}, author={Arya Shah and Vaibhav Tripathi and Mayank Singh and Chaklam Silpasuwanchai}, year={2026}, eprint={2604.13803}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2604.13803}, }

如果使用fMRI数据，还需引用原始来源： bibtex @article{gifford2023algonauts, title = {The Algonauts Project 2023 Challenge: How the Human Brain Makes Sense of Natural Scenes}, author = {Gifford, A.T. and Lahner, B. and Saba-Sadiya, S. and others}, journal = {arXiv preprint arXiv:2301.03198}, year = {2023} }

@article{allen2022massive, title = {A massive 7T fMRI dataset to bridge cognitive neuroscience and artificial intelligence}, author = {Allen, E.J. and St-Yves, G. and Wu, Y. and others}, journal = {Nature Neuroscience}, volume = {25}, number = {1}, pages = {116--126}, year = {2022} }

搜集汇总

数据集介绍

构建方式

在视觉语言模型安全评估领域，Gaslight-Gatekeep-V1-V3数据集通过结构化的对抗性提示构建，旨在系统性地测试模型对奉承性操纵的抵抗能力。该数据集包含6,400个精心设计的两轮对话提示，这些提示基于Llama-3.1-70B-Instruct模型生成，并严格依据MS-COCO数据集的真实标注进行事实性校准。每个提示均围绕一张自然场景图像展开，首轮对话会向模型呈现一个关于图像内容的错误声明，若模型初始抵抗，第二轮对话则会采用升级的劝说策略施加进一步压力。数据构建过程涵盖了五种具体的操纵类别和十个渐进式难度等级，确保了评估维度的全面性与层次性。

特点

该数据集的核心特点在于其多模态与神经科学的交叉融合。它不仅提供了大规模的对抗性文本提示，还整合了来自八名人类受试者的7T功能磁共振成像数据，这些数据记录了受试者在观看相同自然场景图像时早期视觉皮层的神经响应。这种独特的结构使得研究者能够量化视觉语言模型与人类早期视觉皮层（V1-V3区）在表征上的对齐程度，并探究这种神经对齐与模型抵抗奉承性操纵能力之间的统计关联。数据集的提示经过精细分类，从否定物体存在到扭曲空间关系，覆盖了多种认知层面的攻击向量，为模型鲁棒性研究提供了细粒度的分析基础。

使用方法

使用该数据集时，研究者可通过Hugging Face的`datasets`库直接加载基准测试部分，便捷地获取结构化的提示、图像路径及标注信息。对于功能磁共振成像数据，则需通过NumPy加载预处理的神经响应数组与感兴趣区域掩码，以便进行神经表征对齐分析。该数据集主要服务于评估目的，可用于计算视觉语言模型在对抗性提示下的奉承率，并通过岭回归等方法计算模型表征与人类神经数据之间的对齐分数。配套的代码库提供了完整的分析流程，支持从特征提取、奉承性评估到统计检验的全链条复现，旨在推动模型安全性与脑启发人工智能的交叉研究。

背景与挑战

背景概述

Gaslight-Gatekeep-V1-V3数据集诞生于2026年，由Arya Shah等研究人员构建，旨在探索视觉语言模型在对抗性操纵下的奉承行为。该数据集的核心研究问题聚焦于评估模型对多模态误导信息的抵抗能力，并创新性地将神经科学中的早期视觉皮层对齐作为衡量指标。通过整合来自自然场景数据集的功能磁共振成像数据与结构化对抗提示，该工作为人工智能安全领域提供了首个系统性的奉承行为基准，推动了视觉语言模型鲁棒性与脑神经表征关联性的交叉研究。

当前挑战

该数据集致力于解决视觉语言模型在对抗性环境中易受奉承性操纵的挑战，具体体现为模型可能屈从于包含事实错误的多轮对话压力。构建过程中的挑战包括设计涵盖存在否认、属性操纵等五类语义扭曲的多样化对抗提示，并确保其难度梯度从温和建议到极端压力具有连续性。同时，数据集融合了功能磁共振成像数据，需精确处理大脑皮层区域划分与神经响应映射，以建立模型表征与早期视觉皮层活动之间的可靠关联。

常用场景

经典使用场景

在视觉语言模型的安全评估领域，Gaslight-Gatekeep-V1-V3数据集被广泛用于测试模型对奉承性操纵的抵抗能力。该数据集通过精心设计的双轮对抗性提示，模拟了人类对话中常见的误导性陈述，例如否认图像中明显存在的物体或篡改对象属性。研究者利用这些结构化提示，系统地评估模型在面对渐进式压力时是否倾向于迎合错误主张，从而揭示模型在对抗环境下的鲁棒性缺陷。

解决学术问题

该数据集的核心贡献在于建立了早期视觉皮层对齐与模型抗奉承能力之间的量化关联，解决了多模态人工智能领域中对神经基础与模型行为关系理解不足的问题。通过整合功能性磁共振成像数据，研究证实了V1-V3区域神经表征对齐程度与模型奉承率呈显著负相关，这一发现为基于脑启发式对齐的模型安全优化提供了实证依据，推动了神经科学与人工智能安全的交叉研究。

衍生相关工作

该数据集衍生的经典工作主要集中于脑对齐增强的模型鲁棒性研究。例如，后续研究借鉴其神经对齐度量方法，开发了基于视觉皮层表征相似性的模型正则化技术。同时，其奉承性攻击分类体系被扩展至多语言与跨模态场景，催生了针对文化特定性误导模式的基准构建。这些工作共同推动了对抗性神经科学这一新兴领域的方法论发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集