CoProV2
收藏github2025-01-03 更新2025-01-04 收录
下载链接:
https://github.com/Visualignment/SafetyDPO
下载链接
链接失效反馈官方服务:
资源简介:
CoProV2是一个用于Stable Diffusion v1.5的数据集,包含有害和安全的图像-文本对,用于通过直接偏好优化(DPO)方法对文本到图像(T2I)模型进行安全对齐。
CoProV2 is a dataset designed for Stable Diffusion v1.5, containing both harmful and safe image-text pairs, and utilized for safety alignment of text-to-image (T2I) models via the Direct Preference Optimization (DPO) method.
创建时间:
2024-12-15
原始信息汇总
数据集概述
数据集名称
- CoProV2
数据集用途
- 用于Stable Diffusion 1.5模型的安全对齐,旨在通过生成有害和安全图像-文本对来训练安全专家,从而减少文本到图像(T2I)模型生成有害内容的风险。
数据集发布信息
- 发布日期: 2025年1月
- 发布地址: CoProV2数据集下载链接
数据集生成方法
- 使用大型语言模型(LLM)生成不同类别中的不安全概念对应的提示词,并生成配对的提示词以最小化语义差异。
- 使用目标对齐的T2I模型生成对应提示词的图像。
数据集特点
- 规模: 与CoPro数据集相当。
- 内容: 包含有害和安全图像-文本对,用于训练安全专家。
- 性能: 在不当概率(IP)方面与人工制作的数据集(UD、I2P)相当,并且在图像质量(FID、CLIPScore)方面表现优异。
数据集应用
- 安全专家训练: 使用CoProV2数据集训练低秩适应(LoRA)专家,专注于特定安全类别(如“仇恨”、“性”、“暴力”等)。
- 专家合并: 使用Co-Merge策略合并多个安全专家,以实现通用安全专家,能够在任何类别的不安全输入提示下生成安全输出。
数据集性能评估
- 基准测试: SafetyDPO在生成的图像对齐(IP)和图像质量(FID、CLIPScore)方面表现最佳,优于其他方法。
- 抗攻击能力: 在多种对抗攻击方法下,SafetyDPO的表现优于基线方法,证明了其可扩展概念移除策略的有效性。
- 消融研究: 验证了DPO策略和Co-Merge策略的有效性,并证明了数据扩展对性能的提升作用。
相关论文
- 标题: SafetyDPO: Scalable Safety Alignment for Text-to-Image Generation
- 作者: Runtao Liu, I Chieh Chen, Jindong Gu, Jipeng Zhang, Renjie Pi, Qifeng Chen, Philip Torr, Ashkan Khakzar, Fabio Pizzati
- 期刊: arXiv preprint arXiv:2412.10493
- 年份: 2024
搜集汇总
数据集介绍

构建方式
CoProV2数据集的构建基于文本到图像生成模型的安全对齐需求,通过合成生成有害与安全的图像-文本对。具体而言,研究人员利用大型语言模型(LLM)生成不同类别的不安全概念对应的提示词,并生成语义差异最小的安全提示词对。随后,使用目标对齐的文本到图像模型为这些提示词生成对应的图像,形成数据集的核心内容。通过这种方式,数据集能够覆盖广泛的安全相关概念,并为后续的安全对齐训练提供高质量的数据支持。
使用方法
CoProV2数据集的使用方法主要围绕文本到图像生成模型的安全对齐任务展开。研究人员首先利用数据集训练针对特定安全类别的低秩适应(LoRA)专家模型,并通过直接偏好优化(DPO)策略进行训练。随后,采用一种新颖的合并策略(Co-Merge)将多个专家模型合并为一个通用安全专家模型,以实现对多种有害概念的统一处理。通过这种方式,数据集能够显著提升模型在生成安全图像方面的性能,同时保持对输入提示词的语义一致性。
背景与挑战
背景概述
CoProV2数据集由香港科技大学和牛津大学的研究团队于2024年发布,旨在解决文本到图像生成(T2I)模型中的安全问题。随着T2I模型的广泛应用,其生成内容的安全性成为亟待解决的问题。CoProV2数据集通过合成有害与安全的图像-文本对,支持基于直接偏好优化(DPO)的安全对齐方法,显著提升了模型在生成内容时的安全性。该数据集的发布为T2I模型的安全对齐提供了新的研究范式,推动了相关领域的技术进步。
当前挑战
CoProV2数据集在构建过程中面临多重挑战。首先,生成有害与安全的图像-文本对需要精确控制语义差异,以确保数据的多样性和有效性。其次,训练安全专家模型时,需针对不同类别(如仇恨、暴力等)进行独立优化,这对计算资源和算法设计提出了较高要求。此外,如何高效合并多个安全专家模型以提升整体性能,也是数据集构建中的关键难题。这些挑战不仅影响了数据集的构建效率,也对后续模型的训练和优化提出了更高的技术门槛。
常用场景
经典使用场景
CoProV2数据集在文本到图像生成(T2I)领域中的经典使用场景主要集中在对生成模型进行安全对齐的研究。通过该数据集,研究人员能够训练出专注于不同安全类别(如仇恨、色情、暴力等)的安全专家模型,进而通过合并这些专家模型来实现对生成内容的广泛安全控制。这一过程不仅提升了模型的安全性,还确保了生成图像的质量和语义一致性。
解决学术问题
CoProV2数据集解决了文本到图像生成模型中的安全对齐问题。传统的安全措施通常局限于文本过滤或少数概念的移除,而CoProV2通过合成生成有害与安全图像-文本对的数据集,结合直接偏好优化(DPO)策略,能够移除多达7倍的有害概念。这一方法显著提升了模型的安全性,并为T2I模型的安全对齐提供了新的研究方向和实践基础。
实际应用
在实际应用中,CoProV2数据集被广泛用于训练和优化文本到图像生成模型,特别是在需要生成安全内容的场景中。例如,社交媒体平台、内容审核系统以及教育工具等领域,都可以利用该数据集来确保生成的内容符合安全标准,避免有害信息的传播。此外,该数据集还为开发者在设计安全对齐策略时提供了重要的数据支持。
数据集最近研究
最新研究方向
在文本到图像生成领域,CoProV2数据集的发布标志着安全对齐技术的重要进展。该数据集专为Stable Diffusion 1.5设计,旨在通过直接偏好优化(DPO)方法提升模型的安全性。SafetyDPO框架通过合成有害和安全图像-文本对的数据集,训练专注于特定安全类别的低秩适应(LoRA)专家,并采用新颖的合并策略,显著增强了模型对有害内容的过滤能力。这一方法不仅能够移除比现有基线多七倍的有害概念,还在多个基准测试中超越了现有技术,为文本到图像生成模型的安全对齐设立了新的标准。CoProV2的发布和相关研究为生成模型的安全性和可控性提供了新的研究方向和解决方案,具有重要的学术和应用价值。
以上内容由遇见数据集搜集并总结生成



