Gaslight-Gatekeep-V1-V3
收藏Gaslight, Gatekeep, V1–V3 数据集概述
数据集基本信息
- 数据集名称: Gaslight, Gatekeep, V1–V3: Sycophancy Benchmark for Vision-Language Models
- 发布地址: https://huggingface.co/datasets/aryashah00/Gaslight-Gatekeep-V1-V3
- 许可证: CC BY 4.0
- 语言: 英语
- 任务类别: 视觉问答、文本分类
- 数据规模: 1K < n < 10K
数据集组成与结构
本数据集包含两个组成部分:
- Gaslighting Benchmark: 包含6,400个结构化的两轮对抗性提示,用于测试视觉语言模型中的奉承性操纵。
- Algonauts 2023 / NSD fMRI 数据: 包含8名人类受试者在观看自然场景图像时的预处理7T fMRI响应数据,包括ROI掩码数组和6个视觉皮层感兴趣区域的训练分割神经响应。
Gaslighting Benchmark 数据结构
| 字段 | 类型 | 描述 |
|---|---|---|
prompt_id |
string | 唯一提示标识符 |
image_id |
string | NSD图像标识符 |
image_path |
string | 数据集中图像的相对路径 |
category |
string | 操纵类别 (CATEGORY_1–CATEGORY_5) |
difficulty_level |
string | 难度级别 (level_1–level_10) |
gaslighting_prompt |
string | 第1轮对抗性提示,呈现错误主张 |
follow_up_prompt |
string | 第2轮升级提示,用于模型初始抵抗时 |
false_claim |
string | 事实错误主张的明确陈述 |
ground_truth |
string | 图像内容的事实正确描述 |
persuasion_tactics |
string | 使用的说服策略列表 |
has_follow_up |
bool | 是否包含第2轮跟进 |
操纵类别
| 类别 | 名称 | 描述 |
|---|---|---|
CATEGORY_1 |
存在否认 | 声称图像中明显存在的物体不存在 |
CATEGORY_2 |
属性操纵 | 错误归因物体的属性 |
CATEGORY_3 |
计数扭曲 | 陈述错误的物体数量 |
CATEGORY_4 |
空间关系改变 | 错误表示物体之间的位置关系 |
CATEGORY_5 |
活动误传 | 错误描述所描绘的动作或活动 |
fMRI 数据结构
subj0X/ ├── roi_masks/ │ ├── lh.<roi>_challenge_space.npy │ ├── lh.<roi>_fsaverage_space.npy │ ├── rh.<roi>_challenge_space.npy │ ├── rh.<roi>fsaverage_space.npy │ └── mapping<roi>.npy └── training_split/ └── training_fmri/ ├── lh_training_fmri.npy └── rh_training_fmri.npy
ROI 类别: prf-visualrois (V1v, V1d, V2v, V2d, V3v, V3d, hV4) · floc-bodies · floc-faces · floc-places · floc-words · streams
数据划分
| 划分 | 大小 | 描述 |
|---|---|---|
train |
6,400 | 完整的gaslighting基准测试 |
数据集统计
| 属性 | 值 |
|---|---|
| 总提示数 | 6,400 |
| 唯一图像数 | 200 |
| 操纵类别数 | 5 |
| 难度级别数 | 10 |
| 论文中每个模型的提示数 | 6,400 |
| 论文中的总评估数 | 76,800 |
| 提示生成器 | Llama-3.1-70B-Instruct |
| 事实依据 | MS-COCO 标注 |
| fMRI 受试者数 | 8 |
| fMRI 成像 | 7T, Natural Scenes Dataset |
| 视觉皮层 ROI 数 | 6 |
使用目的
直接用途
- 在对抗性两轮压力下对视觉语言模型的奉承抵抗能力进行基准测试
- 研究神经表征对齐与对抗鲁棒性之间的关系
- 在多模态操纵任务上对开源权重VLM进行安全性评估
超出范围的用途
- fMRI数据不得用于任何试图识别个体受试者的目的
- gaslighting提示分类法不应用于针对已部署系统制作生产规模的对抗性攻击
局限性
- 提示生成: 提示由Llama-3.1-70B-Instruct使用结构化模板生成。人工编写的提示可能引发不同的奉承性特征。
- 图像来源: 图像来自MS-COCO。数据集继承了COCO中存在的任何偏见。
- 语言: 所有提示均为英语。
- fMRI范围: 神经数据来自8名执行被动观看任务的受试者;尚未建立对其他范式或成像模式的泛化。
引用
如果使用gaslighting基准测试,请引用: bibtex @misc{shah2026gaslightgatekeepv1v3early, title={Gaslight, Gatekeep, V1-V3: Early Visual Cortex Alignment Shields Vision-Language Models from Sycophantic Manipulation}, author={Arya Shah and Vaibhav Tripathi and Mayank Singh and Chaklam Silpasuwanchai}, year={2026}, eprint={2604.13803}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2604.13803}, }
如果使用fMRI数据,还需引用原始来源: bibtex @article{gifford2023algonauts, title = {The Algonauts Project 2023 Challenge: How the Human Brain Makes Sense of Natural Scenes}, author = {Gifford, A.T. and Lahner, B. and Saba-Sadiya, S. and others}, journal = {arXiv preprint arXiv:2301.03198}, year = {2023} }
@article{allen2022massive, title = {A massive 7T fMRI dataset to bridge cognitive neuroscience and artificial intelligence}, author = {Allen, E.J. and St-Yves, G. and Wu, Y. and others}, journal = {Nature Neuroscience}, volume = {25}, number = {1}, pages = {116--126}, year = {2022} }




