KTO_trial

Hugging Face2026-04-04 更新2026-04-05 收录

下载链接：

https://huggingface.co/datasets/ShreyashDhoot/KTO_trial

下载链接

链接失效反馈

官方服务：

资源简介：

KTO训练数据集是从'kricko/cleaned_auditor'数据集经过Auditor模型处理得到的。每个样本包含原始图像、对抗性热图、羽化掩码以及检测到不安全区域被涂黑的掩码图像。数据集包含以下字段：'image'（原始输入图像）、'prompt'（相关文本提示）、'id'（唯一标识符）、'disturbing'（令人不安内容评分）、'hate'（仇恨内容评分）、'illegal activity'（非法活动评分）、'safe'（安全内容评分）、'sexual'（性内容评分）、'violence'（暴力内容评分）、'feathered_mask'（羽化对抗掩码）和'image_masked_removed'（不安全区域被涂黑的图像）。处理参数包括：75百分位对抗热图阈值、5×5核的形态学膨胀（2次迭代）、sigma=5.0的高斯模糊羽化。数据集总样本量为27,553个，适用于图像分类、内容安全评估等任务。

The KTO training dataset is derived from the 'kricko/cleaned_auditor' dataset after being processed by the Auditor model. Each sample consists of the original image, adversarial heatmap, feathered mask, and the masked image where detected unsafe regions are blacked out. The dataset includes the following fields: 'image' (original input image), 'prompt' (relevant text prompt), 'id' (unique identifier), 'disturbing' (disturbing content score), 'hate' (hate content score), 'illegal activity' (illegal activity score), 'safe' (safe content score), 'sexual' (sexual content score), 'violence' (violence content score), 'feathered_mask' (feathered adversarial mask), and 'image_masked_removed' (image with detected unsafe regions blacked out). The processing parameters are as follows: 75th percentile adversarial heatmap threshold, morphological dilation with a 5×5 kernel (2 iterations), and Gaussian blur feathering with sigma=5.0. The dataset has a total of 27,553 samples and is applicable to tasks such as image classification and content safety assessment.

创建时间：

2026-04-03

原始信息汇总

KTO Training Dataset 概述

数据集基本信息

语言：英语
许可证：MIT
任务类别：图像分类
标签：图像、安全、对抗性、修复、KTO
来源：数据集由 kricko/cleaned_auditor 经Auditor模型处理得到。

数据集内容与规模

总样本数：27553
核心内容：每个样本包含原始图像、对抗性热图、羽化掩码以及将检测到的不安全区域涂黑后的掩码图像。

数据特征（Features）

列名	数据类型	描述
`image`	图像	原始输入图像
`prompt`	字符串	与图像关联的文本提示
`id`	字符串	唯一标识符
`disturbing`	int8	令人不安内容评分
`hate`	int8	仇恨内容评分
`illegal activity`	int8	非法活动评分
`safe`	int8	安全内容评分
`sexual`	int8	性相关内容评分
`violence`	int8	暴力内容评分
`feathered_mask`	图像	羽化对抗掩码（sigma=5，75百分位阈值）
`image_masked_removed`	图像	对抗区域被涂黑后的原始图像

数据处理细节

阈值：对抗性热图的第75百分位
形态学膨胀：5×5内核，2次迭代
羽化处理：高斯模糊 sigma=5.0

搜集汇总

数据集介绍

构建方式

在图像安全评估领域，KTO_trial数据集通过系统化处理流程构建而成。其源数据来自cleaned_auditor数据集，借助Auditor模型生成对抗性热力图，并基于75%分位数阈值识别潜在不安全区域。通过形态学膨胀与高斯模糊羽化技术，生成精细化掩膜，最终将原始图像中的敏感内容以黑色区域覆盖，形成图像掩膜版本。该流程共处理了27553个样本，确保了数据在安全过滤方面的严谨性与一致性。

特点

该数据集的核心特征在于其多维度的安全标注体系与丰富的视觉辅助信息。每个样本不仅包含原始图像及对应文本提示，还提供了六类安全评分，涵盖扰乱性、仇恨、非法活动、安全性、色情与暴力等维度，形成细粒度的内容评估框架。此外，数据集附带了羽化掩膜图像与掩膜处理后的图像，直观展示了对抗性区域的位置与处理效果，为研究图像安全机制与对抗样本检测提供了立体化的数据支撑。

使用方法

研究人员可利用该数据集开展图像内容安全分析与对抗防御技术研究。通过整合原始图像、安全评分与掩膜视觉数据，可训练模型识别并过滤多类别不安全内容，或评估现有安全系统的鲁棒性。掩膜图像可用于研究对抗性区域的视觉特征，而羽化掩膜则为图像修复与安全区域重建任务提供参考。数据集的唯一标识符与结构化标注支持大规模实验的可重复性与细致化分析。

背景与挑战

背景概述

在生成式人工智能迅猛发展的时代背景下，图像生成模型的安全性评估成为一项至关重要的研究课题。KTO_trial数据集应运而生，旨在为对抗性安全检测提供结构化基准。该数据集由研究社区基于Auditor模型，对kricko/cleaned_auditor源数据进行系统化处理而构建，其核心聚焦于多维度内容安全分类，涵盖扰乱性、仇恨、非法活动、性与暴力等敏感类别。通过提供原始图像、对抗性热图、羽化掩码及区域遮蔽图像等多模态特征，该数据集为深入探究生成内容的安全边界与对抗鲁棒性奠定了实证基础，推动了安全对齐与可解释性人工智能领域的前沿探索。

当前挑战

该数据集致力于应对生成式图像内容安全分类的复杂挑战，其核心在于精准识别与量化多类别不安全内容，这要求模型具备细粒度的语义理解与跨模态关联能力。在构建过程中，挑战主要源于对抗性区域的自动化标注与掩码生成。如何设定合理的百分位阈值以平衡检测灵敏度与特异性，以及运用形态学膨胀与高斯羽化技术来生成既连贯又自然的掩码，均是数据处理流程中的关键难题。这些技术选择直接影响后续模型训练与评估的效度，对构建可靠的安全评估体系构成了实质性考验。

常用场景

经典使用场景

在图像安全与对抗性攻击研究领域，KTO_trial数据集为评估和提升生成模型的内容安全性提供了关键基准。该数据集通过结合原始图像、对抗性热图、羽化掩码及掩蔽后图像，典型应用于训练和验证图像分类模型，特别是针对多类别不安全内容的检测，如暴力、仇恨或非法活动等。研究者利用其丰富的标注信息，能够系统分析模型在对抗性扰动下的鲁棒性，从而推动安全图像生成技术的发展。

衍生相关工作

基于KTO_trial数据集，衍生出多项经典研究工作，主要集中在对抗性防御与安全增强的图像生成模型。例如，研究者开发了改进的对抗性检测算法，利用其羽化掩码和热图信息提升模型对细微不安全区域的敏感性。此外，该数据集还促进了多任务学习框架的发展，将安全分类与图像修复相结合，推动了如安全感知的图像修复和内容净化等技术的创新与应用。

数据集最近研究