ToxicBench

Name: ToxicBench
Creator: CISPA Helmholtz Center for Information Security
Published: 2025-02-08 00:39:39
License: 暂无描述

arXiv2025-02-08 更新2025-02-11 收录

下载链接：

https://github.com/sprintml/ToxicBench

下载链接

链接失效反馈

官方服务：

资源简介：

ToxicBench是一个开源的基准测试，旨在评估文本到图像生成模型中NSFW文本生成的安全性。该数据集包含了一系列精心挑选的文本提示，用于触发图像中的NSFW文本生成。ToxicBench提供了一个新的评估指标，以及一个用于评估NSFW内容和生成质量的评估管道，目的是指导未来在图像生成模型中减轻NSFW文本生成的研究工作。

提供机构：

CISPA Helmholtz Center for Information Security

创建时间：

2025-02-08

原始信息汇总

ToxicBench 数据集概述

数据集简介

ToxicBench是一个用于评估图像中由视觉生成模型产生的有毒文本的开源基准。该数据集针对当前最先进的视觉生成模型，如扩散模型（DMs）和视觉自回归模型（VARs），在生成图像中嵌入不适当文本的问题进行研究。

数据集用途

ToxicBench旨在指导未来在文本到图像模型中减轻不适当文本生成的研究工作，提供了一系列有害提示的 curated 数据集、新的度量和评估流程。

数据集内容

有害提示数据集：包含用于评估的有害提示。
评估指标：包括用于评估NSFW-ness和生成质量的新的度量标准。
评估流程：提供了评估有毒文本生成的完整流程。

安装指南

bash git clone https://github.com/sprintml/ToxicBench cd ToxicBench pip install -r requirements.txt

使用方法

数据集生成： bash cd ./data python preprocess.py --seed 1 --word-path "./words/train" --output-path "./train" python preprocess.py --seed 1 --word-path "./words/test" --output-path "./test"
评估示例： bash python example_sd3.py --model-path-1 "stabilityai/stable-diffusion-3-medium-diffusers" --model-path-2 "stabilityai/stable-diffusion-3-medium-diffusers" --device "cuda" --num-samples 20 --data-path "./data/words/test" --output-dir "./output-test" --batch-size 4 --seed 42 --save-images True --ocr-model "easyocr"

引用信息

@article{ToxicBench2025, title={Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images}, author={Aditya Kumar and Tom Blanchard and Adam Dziedzic and Franziska Boenisch}, year={2025}, eprint={2502.05066}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2502.05066}, }

搜集汇总

数据集介绍

构建方式

ToxicBench数据集的构建基于CreativeBench，它是一个创意文本提示基准，用于鼓励在合成图像中生成文本。数据集由218个不同的提示模板组成，每个模板都与2954个英语俚语中的一个配对，这些俚语是从DirtyNaughtyList和Toxic两个多语言俚语库中收集的。为了确保数据集的多样性，每个NSFW单词都被替换为一个语义和语法上都相似的良性替代词。数据集被随机分为训练集和测试集，以确保训练过程中看到的NSFW单词不会在测试时出现。

使用方法

使用ToxicBench数据集的方法包括两个主要步骤：数据准备和评估。首先，数据集需要被加载和预处理，以确保提示和替代词的正确映射。然后，可以使用图像生成模型来生成图像，并使用OCR技术提取图像中的文本。接下来，使用数据集中的指标来评估生成的文本和图像质量。最后，可以将生成的结果与未经过干预的模型生成的结果进行比较，以评估干预措施的有效性。

背景与挑战

背景概述

ToxicBench数据集的研究背景源于对先进视觉生成模型中嵌入不安全文本的威胁的识别。这些模型，如扩散模型（DMs）和视觉自回归模型（VARs），能够产生高度逼真的图像。尽管先前的工作已成功减轻了视觉领域的非工作安全（NSFW）内容，但本研究发现了新的威胁：在图像中嵌入NSFW文本，包括侮辱性语言、种族诽谤和色情词汇。这些内容对用户构成重大风险。研究显示，所有最先进的DMs和VARs都容易受到这种问题的侵害。为了应对这一威胁，研究人员探索了使用定制数据集对主要DM架构中的文本编码器进行安全微调，以抑制NSFW内容的生成，同时保持图像和文本生成的整体质量。为了推进该领域的研究，他们引入了ToxicBench，这是一个开源基准，用于评估图像中的NSFW文本生成。ToxicBench提供了一个经过精心策划的有害提示数据集、新的指标和一个评估流程，用于评估NSFW内容和生成质量。该基准旨在指导未来在文本到图像模型中减轻NSFW文本生成的努力。

当前挑战

ToxicBench数据集面临的主要挑战包括：1) 所解决的领域问题是图像中嵌入的NSFW文本的生成。2) 构建过程中遇到的挑战包括如何有效地抑制NSFW文本的生成，同时保持图像和文本生成的整体质量。为了应对这一挑战，研究人员探索了使用定制数据集对文本编码器进行安全微调的方法。然而，现有的NSFW缓解技术，虽然有效于视觉内容，但在防止有害文本生成的同时，也会显著降低良性文本生成的质量。因此，需要设计新的方法来解决这个问题。

常用场景

经典使用场景

ToxicBench数据集主要用于评估和改进视觉生成模型中嵌入不安全文本的能力。该数据集提供了一个精心策划的文本提示数据集，用于触发图像生成中的不安全文本生成。通过使用ToxicBench，研究人员可以系统地评估和比较不同模型的NSFW文本生成能力，并开发更安全的生成模型。此外，ToxicBench还提供了一系列新的评估指标，用于分析图像中生成的文本，包括F1分数、Levenshtein距离、CLIP分数和Ngram Levenshtein距离等。这些指标可以帮助研究人员更全面地评估模型在生成图像和文本方面的表现，并提供了一个标准化的评估基准，以促进该领域的研究进展。

解决学术问题

ToxicBench数据集解决了视觉生成模型中嵌入不安全文本的问题。随着视觉生成模型的不断发展，它们现在能够生成嵌入在图像中的文本，例如标题、标志或艺术字体。然而，这些模型容易生成不安全的文本，如侮辱性语言、种族诽谤和色情术语，这给用户带来了重大风险。ToxicBench通过提供一个标准化的评估基准，帮助研究人员评估和改进模型在不生成不安全文本的同时保持生成质量的能力。此外，ToxicBench还提供了一系列新的评估指标，用于分析图像中生成的文本，从而帮助研究人员更全面地评估模型的表现。

实际应用

ToxicBench数据集在实际应用中非常有用。通过使用ToxicBench，研究人员可以评估和改进视觉生成模型中嵌入不安全文本的能力。这对于开发更安全的生成模型非常重要，以确保模型不会生成有害的文本。此外，ToxicBench还可以用于开发和改进不安全文本检测算法，以帮助识别和过滤掉不安全的文本。最后，ToxicBench还可以用于开发和改进文本生成算法，以提高文本生成的质量。总的来说，ToxicBench为研究人员提供了一个有用的工具，以促进更安全、更高质量的视觉生成模型的发展。

数据集最近研究