Security Tensors Dataset

Name: Security Tensors Dataset
Creator: 中国科学技术大学
Published: 2025-07-29 00:59:53
License: 暂无描述

arXiv2025-07-29 更新2025-07-30 收录

下载链接：

https://github.com/listen0425/Security-Tensors

下载链接

链接失效反馈

官方服务：

资源简介：

Security Tensors数据集是为了训练可训练的输入向量，称为安全张量，这些张量能够在推理过程中通过文本或视觉模态应用，以增强大型视觉语言模型（LVLM）的安全性。数据集包含恶意图像-文本对、对比性良性对以及一般良性样本，旨在训练模型识别和拒绝有害的视觉输入，同时保持对良性任务的性能。数据集通过精心设计，确保安全张量能够有效地将文本安全机制扩展到视觉模态，解决跨模态安全对齐的挑战。

The Security Tensors dataset is designed for training trainable input vectors termed Security Tensors, which can be applied via text or visual modalities during inference to enhance the safety of Large Vision-Language Models (LVLMs). The dataset comprises malicious image-text pairs, contrastive benign pairs and general benign samples, aiming to train models to identify and reject harmful visual inputs while maintaining performance on benign tasks. Meticulously crafted, this dataset ensures that Security Tensors can effectively extend text-based security mechanisms to the visual modality, addressing the challenge of cross-modal security alignment.

提供机构：

中国科学技术大学

创建时间：

2025-07-29

原始信息汇总

数据集概述

数据集来源

数据集来源于论文《Security Tensors as a Cross-Modal Bridge: Extending Text-Aligned Safety to Vision in LVLM》的官方实现代码库。

数据集结构

Dataset/ 目录包含以下训练数据：
- SA set（Safety-Aligned）
- TCB set（Text-Conditioned Benign）
- GB set（General Benign）

数据内容

图像数据：位于 Dataset/images/ 目录下。
标注文件：与图像对应的 .json 文件，包含以下字段：
- pic_path：图像路径
- input：输入文本
- output：输出文本
- type：数据类型（SA set、TCB set 或 GB set）
- output_refuse：拒绝输出文本（仅 SA set 包含）

标签规则

SA set：标签为 "output_refuse"
TCB set 和 GB set：标签为 "output"

数据用途

用于训练和评估大型视觉语言模型（LVLM）的文本和视觉安全向量（"security tensors"）。

模型支持

支持以下模型的训练和评估：
- LLaMA-3.2-vision
- LLaVA-1.5
- Qwen-VL

训练与评估

训练：模型特定的训练脚本位于各模型目录的 Training/ 子目录下。
评估：模型特定的评估脚本位于各模型目录的 Infer/ 子目录下。

安全层分析

包含分析安全向量如何激活 LVLM 安全层的脚本，位于 Safety_Layers_LVLM/ 目录下。

环境配置

提供 environment.yml 文件用于复现实验环境。

搜集汇总

数据集介绍

构建方式

Security Tensors Dataset的构建过程体现了跨模态安全研究的前沿理念。该数据集通过精心设计的三类样本组合实现：恶意图像-文本对用于激活安全响应，结构相似的良性对比样本防止文本依赖，以及通用良性样本维持模型功能。研究人员采用黑盒优化策略，在不修改模型参数的前提下，通过可训练的安全张量（δv和δt）在视觉或文本模态施加扰动，将预训练语言模块的文本安全机制迁移至视觉处理。这种创新方法通过对比学习框架，使模型能够区分恶意视觉模式与良性内容，实现了跨模态安全对齐的突破。

特点

该数据集的核心特征在于其多层次的对比学习架构。安全激活集（SA）包含400个跨模态恶意查询，每个查询配以随机采样的拒绝响应模板，确保语义泛化能力。文本对比良性集（TCB）的200个样本采用与SA集镜像的句法结构，但搭配良性图像，有效防止模型对表面文本特征的过拟合。通用良性集（GB）的400个样本则完整保留原始模型输出分布。这种三元组设计使安全张量能同时实现89.2%的有害内容拒绝率和仅7.75%的误拒率，在MM-Vet基准上性能损失不超过3.9%，展现了卓越的平衡性。

使用方法

使用该数据集时需遵循严格的模态适配流程。视觉安全张量δv需加载至预处理图像空间（尺寸依模型调整为336×336×3或448×448×3），文本安全张量δt则插入图像与文本token嵌入之间（虚拟token数100-300）。推理阶段采用两阶段验证：首先通过余弦相似度检测隐藏层9-20层（安全层）的激活模式，当安全层激活值超过阈值时触发拒绝机制。对于多模态输入，建议并行计算δv和δt的联合效应，当任一模态张量检测到恶意特征时即可中断推理流程。数据集提供的1,000个训练查询需按6:2:2比例划分训练/验证/测试集，采用AdamW优化器（学习率8e-4）训练约400个epoch。

背景与挑战

背景概述

Security Tensors Dataset是由中国科学技术大学的研究团队于2025年提出的一个创新性数据集，旨在解决大型视觉语言模型（LVLMs）在跨模态安全对齐方面的关键问题。随着LVLMs在多模态内容理解方面展现出卓越能力，其视觉模态的安全漏洞日益凸显。传统基于文本的安全机制难以直接扩展到视觉输入，导致模型容易受到恶意图像的攻击。该数据集通过引入可训练的安全张量（security tensors），在不修改模型参数的情况下，将语言模块预训练的文本安全机制扩展到视觉处理中。这一创新为跨模态安全对齐研究提供了重要基准，推动了多模态模型安全领域的发展。

当前挑战

该数据集面临的核心挑战体现在两个方面：在领域问题层面，需要解决视觉模态安全机制与文本安全机制之间的不对齐问题，即如何让基于文本训练的安全层能够有效识别和拒绝恶意视觉内容；在构建过程层面，主要挑战包括：1) 需要精心设计包含恶意图像-文本对、对比良性对和通用良性样本的三元训练数据，以确保安全张量既能激活视觉安全响应，又能避免过度依赖文本表面特征；2) 需要开发有效的优化方法，使安全张量能够在保持模型正常功能的同时，实现对各类恶意视觉输入的鲁棒识别；3) 需要解决跨模态表征对齐的技术难题，确保视觉输入能够有效激活语言模块的安全层。

常用场景

经典使用场景

Security Tensors Dataset在大型视觉语言模型（LVLM）的安全增强研究中扮演了关键角色。该数据集通过精心设计的恶意图像-文本对、对比良性对和一般良性样本，为安全张量的训练提供了丰富素材。研究者在实验中利用该数据集优化安全张量，使其能够在推理过程中通过文本或视觉模态激活语言模块的预训练安全机制，从而有效识别并拒绝有害视觉输入，同时保持对良性任务的高性能处理。

衍生相关工作

基于该数据集的安全张量方法催生了一系列跨模态安全研究。经典衍生工作包括：1) 视觉对抗样本防御框架VLGuard的改进，2) 多模态安全基准MM-SafeBench的扩展评估协议，3) 语言模块安全层的可视化分析技术。这些工作共同推动了从表征学习到可解释性分析的多维度安全研究进展，形成了跨模态对齐的技术体系。

数据集最近研究