ToxiClean-IT

Name: ToxiClean-IT
Creator: 韩国大学
Published: 2025-09-17 15:16:06
License: 暂无描述

arXiv2025-09-17 更新2025-09-19 收录

下载链接：

https://huggingface.co/datasets/KEVIN04087/ToxiClean-IT

下载链接

链接失效反馈

官方服务：

资源简介：

ToxiClean-IT是一个图像-文本数据集，由韩国大学创建，用于训练和评估文本到图像生成模型的安全性。数据集通过多模态大型语言模型生成，包含文本和视觉安全信号，旨在通过监督微调提高模型的安全性，同时保持与用户意图的一致性。数据集的具体内容、创建过程和应用领域未在论文中详细描述。

ToxiClean-IT is an image-text dataset created by Korean universities for training and evaluating the safety of text-to-image generation models. The dataset is generated via multimodal large language models and contains both textual and visual safety signals, aiming to improve model safety through supervised fine-tuning while maintaining consistency with user intent. The specific content, creation process and application fields of the dataset are not described in detail in the paper.

提供机构：

韩国大学

创建时间：

2025-09-17

原始信息汇总

ToxiClean-IT 数据集概述

数据集简介

ToxiClean-IT 是一个多模态数据集，专为视觉语言模型的监督微调而设计，旨在生成既安全又符合用户意图的输出。该数据集在论文《Iterative Prompt Refinement for Safer Text-to-Image Generation》（EMNLP 2025）中首次提出。

数据内容

query（字符串类型）：来自 I2P 数据集的文本提示或指令。
image（字符串类型，可选）：通过 SDV1.4 根据查询生成的对应图像。
response（字符串类型）：与查询和图像相关的 GPT-4.1 响应。

引用信息

使用 ToxiClean-IT 时，请引用源数据集及该整理工作。

搜集汇总

数据集介绍

构建方式

在文本到图像生成安全研究领域，ToxiClean-IT数据集的构建采用了多模态大语言模型进行协同标注。该数据集基于I2P数据集中的3390条有害提示词，通过Stable Diffusion v1.4生成对应图像后，利用GPT-4.1-2025-04-14对图文组合进行安全评估与决策标注。每个数据样本包含原始提示词、生成图像及模型决策（保留动作或净化后的提示词），通过系统化的提示工程框架确保标注的一致性和可靠性。

使用方法

该数据集主要用于视觉语言模型的监督微调与强化学习训练。在监督微调阶段，通过最大化决策标签的似然概率使模型学习安全评估与提示词净化策略；在强化学习阶段，结合毒性评分与对齐评分的复合奖励函数进一步优化模型。训练完成的模型可集成至迭代式提示词优化框架中，通过多轮图像生成与安全评估实现动态风险控制。

背景与挑战

背景概述

ToxiClean-IT数据集由韩国大学研究团队于2025年创建，专注于文本到图像生成模型的安全性问题。该数据集通过多模态大语言模型标注文本和视觉安全信号，支持监督微调，旨在解决恶意或不当提示导致的图像生成风险。其创新性在于融合视觉反馈机制，推动生成模型安全对齐研究的发展，对人工智能伦理和内容安全领域具有重要影响。

当前挑战

构建过程中面临多模态数据协同标注的复杂性，需平衡文本提示的语义完整性与视觉内容的安全性。领域挑战在于如何精准识别隐含有害信息的提示，并避免过度修改已安全的内容。迭代优化中的计算效率问题以及跨模型泛化能力亦是核心难点，需确保方法在不同文本到图像模型上的有效迁移。

常用场景

经典使用场景

在文生图模型的安全生成领域，ToxiClean-IT数据集通过整合文本提示与对应生成图像的双模态安全标注，为视觉语言模型的监督微调提供了关键支撑。该数据集典型应用于迭代式提示词优化框架中，通过分析初始提示词与生成图像的匹配度，判断是否需要保留当前输出或重构提示词，从而在保持用户意图的同时规避有害内容生成。

解决学术问题

该数据集有效解决了文生图模型中安全性与意图保持的平衡难题，突破了传统纯文本过滤机制对视觉内容误判的局限性。通过引入多模态安全信号标注，它支持模型学习视觉语境下的安全边界判别，显著降低了不适当图像生成概率，同时维持了生成内容与原始提示的语义对齐度，为多模态内容安全研究提供了可量化的评估基准。

实际应用

在实际应用层面，ToxiClean-IT被集成到内容生成平台的安全过滤管道中，用于实时检测和修正用户输入的敏感提示词。其多模态评估能力可部署于社交媒体内容审核、教育素材生成、商业设计工具等场景，有效防止暴力、色情等违规视觉内容的产生，同时保障创意表达的完整性，满足企业级内容安全合规需求。

数据集最近研究