SafeSteerDataset

Name: SafeSteerDataset
Creator: NASK国家研究机构; 华沙理工大学; Tooplox; IDEAS研究所; CISPA亥姆霍兹信息安全中心
Published: 2026-03-04 01:10:45
License: 暂无描述

arXiv2026-03-04 更新2026-03-05 收录

下载链接：

https://huggingface.co/datasets/NASK-PIB/SafeSteerDataset

下载链接

链接失效反馈

官方服务：

资源简介：

SafeSteerDataset是由NASK国家研究机构等联合构建的对比数据集，包含2300组安全与不安全提示词对，覆盖性、暴力、仇恨等23个子类别。数据通过Gemini 2.5-Pro生成初稿后，经Qwen-8b嵌入模型筛选（余弦相似度>0.7），确保语义对齐。该数据集专为文本到图像模型的安全转向研究设计，用于精准隔离毒性激活流形，解决现有方法在良性提示上干扰图像质量的问题。

SafeSteerDataset is a contrastive dataset jointly constructed by NASK and other national research institutions. It contains 2300 pairs of safe and unsafe prompts, covering 23 subcategories such as sexual, violent, hateful content and others. The dataset was initially drafted by Gemini 2.5-Pro, then screened by the Qwen-8b embedding model with a cosine similarity threshold greater than 0.7 to ensure semantic alignment. This dataset is specifically designed for safety steering research on text-to-image models, aiming to accurately isolate the toxic activation manifold and resolve the issue where existing methods degrade image quality when handling benign prompts.

提供机构：

NASK国家研究机构; 华沙理工大学; Tooplox; IDEAS研究所; CISPA亥姆霍兹信息安全中心

创建时间：

2026-03-04

搜集汇总

数据集介绍

构建方式

在文本到图像生成模型的安全对齐研究领域，构建高质量的数据集对于精确干预至关重要。SafeSteerDataset的构建采用了两阶段流程，首先利用Gemini 2.5-Pro模型生成包含23个细粒度毒性子类别的候选对比提示对，每个子类别包含100对，共计2300对。随后，通过Qwen-8b嵌入模型进行过滤，仅保留余弦相似度大于0.7的提示对，确保安全与不安全提示在语义上高度对齐，从而能够有效隔离毒性激活流形，为后续的几何映射提供精准数据基础。

使用方法

SafeSteerDataset主要用于训练和评估文本到图像模型的安全干预方法，特别是激活导向技术。研究人员可以利用该数据集学习非线性传输映射，如条件激活传输框架中的多层感知机运输图，将不安全激活投影到安全流形上。数据集的高质量对比对使得模型能够实现几何感知的条件化，仅在检测到不安全激活区域时应用干预，从而在有效降低攻击成功率的同时，最大程度地保持良性查询的图像保真度与语义对齐。

背景与挑战

背景概述

随着文本到图像生成模型的迅猛发展，其安全对齐问题日益凸显，现有方法在抑制有害内容生成时往往以牺牲图像质量为代价。为应对这一挑战，由NASK国家研究所、华沙理工大学及CISPA亥姆霍兹信息安全中心的研究团队于2026年共同构建了SafeSteerDataset。该数据集专注于激活导向安全干预领域，核心研究在于通过精确分离安全与有害语义流形，为条件激活传输方法提供高质量对比数据。其包含2300对语义高度对齐的安全与有害提示对，覆盖性、仇恨、暴力等六大类别下的23个子类，旨在精准刻画有害概念的几何结构，推动生成模型安全干预技术向更高效、更少干扰的方向演进。

当前挑战

SafeSteerDataset致力于解决文本到图像生成模型安全干预中的核心挑战：如何在有效抑制有害内容生成的同时，最大限度保持良性提示下的图像质量与语义保真度。具体而言，该领域面临有害概念流形复杂非线性的难题，传统线性激活导向方法难以精确映射，常导致图像质量严重退化。在数据集构建过程中，挑战在于确保安全与有害提示对之间具有极高的语义相似性，以隔离纯粹的有害方向，避免引入无关语义漂移。为此，研究团队设计了基于层级的自动化生成流程，并利用嵌入模型进行严格过滤，仅保留余弦相似度高于0.7的配对，从而实现对毒性几何结构的高保真刻画。

常用场景

经典使用场景

在文本到图像生成模型的安全性研究领域，SafeSteerDataset作为一项精心构建的对比数据集，其经典使用场景聚焦于为激活导向干预方法提供高精度的训练与评估基准。该数据集包含2300对语义高度相似的安全与不安全提示对，覆盖了性、仇恨、暴力、非法活动、羞辱和令人不安内容等六大毒性类别及其23个子类别。研究者利用这些成对的提示，能够精确地隔离和建模模型内部激活空间中与不安全概念相关的流形结构，从而训练出能够区分细微语义差异的干预机制。这种设计使得数据集成为开发条件化激活传输等先进安全导向方法的核心资源，为在推理时精准抑制有害内容生成，同时最大限度保持良性图像质量提供了关键的数据支撑。

解决学术问题

SafeSteerDataset的构建直接回应了文本到图像模型安全研究中的一个核心挑战：如何在不损害模型通用生成能力的前提下，有效抑制有害内容的产生。传统安全干预方法，如线性激活导向，常因全局性干预而导致良性提示的图像质量严重下降。该数据集通过提供语义对齐的对比提示对，使得研究者能够精确刻画不安全激活的几何特征，而非笼统地捕捉语义漂移。这解决了现有安全基准（如I2P、T2ISafety）无法为激活导向提供精确方向指引的局限。其意义在于首次为安全导向研究提供了能够隔离毒性概念流形的数据基础，推动了从粗放过滤到几何感知的精准干预范式转变，对构建既安全又实用的生成模型具有深远影响。

实际应用

在实际部署中，基于SafeSteerDataset训练的安全导向机制，如条件化激活传输，可直接集成到现有的文本到图像生成系统中，作为推理时的安全防护层。例如，在在线内容创作平台、数字艺术工具或辅助设计软件中，当用户输入可能隐含暴力、仇恨或不当性暗示的文本描述时，该系统能够实时识别并修正模型的内部激活，引导其生成符合安全规范的图像，同时确保对普通、无害的创作请求不产生任何干扰。这种应用不仅降低了平台因生成有害内容而面临的法律与声誉风险，也保障了合法用户的创作自由与体验，为实现生成式人工智能的安全、可控落地提供了切实可行的技术路径。

数据集最近研究