universal-preference-hijacking-datasets

Hugging Face2025-09-17 更新2025-09-18 收录

下载链接：

https://huggingface.co/datasets/yflantmy/universal-preference-hijacking-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于研究和评估多模态大型语言模型在推理时受到的偏好劫持攻击。它包括食品、风景和人物三个领域的图像和文本对，旨在训练可以迁移到不同图像的通用扰动，以劫持模型的响应偏好。

创建时间：

2025-09-08

原始信息汇总

数据集概述

基本信息

名称：universal-preference-hijacking-datasets
语言：英语
许可证：MIT
规模：n<1K
任务类别：问答、视觉问答、图像-文本到文本
标签：对抗攻击、多模态、安全、偏好劫持、llava

数据集结构

配置信息

food配置
- 特征：file_path（字符串）、question（字符串）、not_matching（字符串）、matching（字符串）、image（图像）
- 分割：训练集（250个样本）、测试集（50个样本）
- 下载大小：4966134字节
- 数据集大小：14915931字节
food_test配置
- 特征：file_path（字符串）、question（字符串）、not_matching（字符串）、matching（字符串）、image（图像）
- 分割：训练集（250个样本）、测试集（50个样本）
- 下载大小：5492333字节
- 数据集大小：16889014字节
landscape配置
- 特征：file_path（字符串）、question（字符串）、not_matching（字符串）、matching（字符串）、image（图像）
- 分割：训练集（300个样本）、测试集（60个样本）
- 下载大小：1937501字节
- 数据集大小：5691591字节
landscape_test配置
- 特征：file_path（字符串）、question（字符串）、not_matching（字符串）、matching（字符串）、image（图像）
- 分割：训练集（300个样本）、测试集（60个样本）
- 下载大小：1962191字节
- 数据集大小：5741252字节
people配置
- 特征：file_path（字符串）、question（字符串）、not_matching（字符串）、matching（字符串）、image（图像）
- 分割：训练集（250个样本）、测试集（50个样本）
- 下载大小：1697531字节
- 数据集大小：5026488字节
people_test配置
- 特征：file_path（字符串）、question（字符串）、not_matching（字符串）、matching（字符串）、image（图像）
- 分割：训练集（250个样本）、测试集（50个样本）
- 下载大小：1781752字节
- 数据集大小：5132912字节

域类别

域	训练配置	测试配置	用途
Food	food	food_test	食物相关图像和餐饮偏好
Landscape	landscape	landscape_test	自然风景和环境描述
People	people	people_test	人物肖像和社交互动

数据格式

每个样本包含以下字段：

file_path：图像文件路径（字符串）
question：MLLM的问题提示（字符串）
not_matching：原始/清洁响应偏好（字符串）
matching：目标劫持响应偏好（字符串）
image：实际图像数据（图像）

用途说明

训练配置（food、landscape、people）：用于训练通用扰动（边框或补丁）
测试配置（food_test、landscape_test、people_test）：评估训练扰动的可转移性

相关资源

论文：https://huggingface.co/papers/2509.12521
代码仓库：https://github.com/Yifan-Lan/Phi/

搜集汇总

数据集介绍

构建方式

在对抗性攻击研究领域，universal-preference-hijacking-datasets通过精心设计的多模态样本构建而成。该数据集采用分域策略，涵盖食品、景观和人物三大主题，每个主题配置训练与测试子集。构建过程中，研究人员为每张图像配对了原始问题、标准回答及被劫持的目标回答，确保样本在语义相关性的基础上呈现偏好偏差。图像数据经过标准化处理，与文本字段共同构成协调的多模态输入，为后续扰动优化提供坚实基础。

使用方法

使用该数据集时，研究者需通过官方代码库加载指定域的配置数据。训练阶段采用food、landscape或people配置优化通用扰动，利用内置脚本训练边界或补丁类型的对抗样本；评估阶段则切换到对应_test配置，在未见图像上测试扰动迁移能力。典型流程包括环境配置、数据加载、扰动训练及跨域评估，最终通过指标分析量化劫持效果。该方法确保了实验的可复现性与结果的科学性。

背景与挑战

背景概述

随着多模态大语言模型（MLLMs）在各领域的广泛应用，其安全性问题逐渐凸显。2025年，由研究团队通过EMNLP会议论文《Phi: Preference Hijacking in Multi-modal Large Language Models at Inference Time》提出了Universal-Preference-Hijacking数据集，旨在揭示MLLMs在推理阶段面临的新型安全风险。该数据集通过精心构建的图像-文本对，展示了攻击者如何通过优化图像内容操纵模型输出偏好，引发了对多模态系统安全性的深入思考。

当前挑战

该数据集核心挑战在于解决多模态大语言模型的偏好劫持问题，即如何通过对抗性图像在无需修改模型的情况下实现输出操控。构建过程中需克服跨图像泛化性难题，确保训练的通用扰动能够迁移到未见过的图像样本。同时需平衡攻击的隐蔽性与有效性，使生成的响应既符合上下文语义又具有特定偏差，避免被常规安全机制检测。

常用场景

经典使用场景

在多模态大语言模型安全研究领域，该数据集被广泛应用于训练和评估通用对抗扰动。研究者通过食物、风景和人物三个领域的图像-文本配对数据，优化能够跨图像迁移的偏好劫持扰动。这些扰动被嵌入到图像边缘或补丁区域，在推理时无需修改模型即可操控MLLM的输出偏好，使其生成符合攻击者指定倾向的响应。

解决学术问题

该数据集解决了多模态大语言模型安全领域的关键问题：如何系统化地评估模型对对抗性攻击的脆弱性。通过提供标准化的测试基准，研究者能够量化偏好劫持攻击的有效性和迁移性，推动开发更鲁棒的防御机制。这项工作填补了MLLM安全评估中针对隐式偏好操纵的检测空白，为理解模型决策机制提供了重要洞察。

实际应用

在实际应用层面，该数据集为开发安全审计工具提供了重要基础。企业可使用其测试部署的MLLM系统对对抗性图像的抵抗能力，确保模型输出不被恶意操控。安全研究人员利用该数据集构建红队测试框架，模拟真实世界的攻击场景，从而开发更有效的异常检测算法和防御方案，保障多模态AI系统的可靠部署。

数据集最近研究