UnsafeBench
收藏arXiv2024-05-06 更新2024-06-21 收录
下载链接:
https://unsafebench.github.io
下载链接
链接失效反馈官方服务:
资源简介:
UnsafeBench是由CISPA亥姆霍兹信息安全中心创建的一个大型数据集,包含10,000张真实世界和AI生成的图像,这些图像根据11种不安全类别(如暴力、性、仇恨等)进行标注。该数据集旨在评估图像安全分类器的效果和鲁棒性,特别是在生成AI时代。数据集的创建过程涉及从公共数据库中精心挑选图像,并通过三位作者的标注来确定图像的安全性。UnsafeBench的应用领域包括帮助研究社区更好地理解图像安全分类的现状,并开发更有效的图像内容审核工具。
UnsafeBench is a large-scale dataset created by the CISPA Helmholtz Center for Information Security. It contains 10,000 real-world and AI-generated images, which are annotated under 11 unsafe categories such as violence, sexual content, hate speech, and others. This dataset aims to evaluate the performance and robustness of image safety classifiers, particularly in the era of generative AI. The construction of UnsafeBench involves carefully curating images from public databases, with annotations completed by three authors to determine the safety level of each image. The applications of UnsafeBench include helping the research community better understand the current state of image safety classification and developing more effective image content moderation tools.
提供机构:
CISPA亥姆霍兹信息安全中心
创建时间:
2024-05-06
搜集汇总
数据集介绍

构建方式
UnsafeBench 数据集的构建始于对现实世界和 AI 生成图像的广泛收集,利用 LAION-5B 和 Lexica 数据库作为主要来源。通过 unsafe 关键词进行查询,收集到 12,932 张潜在的 unsafe 图像。随后,由三名作者进行人工标注,确定每张图像是否为 unsafe,并将其归类到 11 个 unsafe 类别之一。最终,数据集包含 10,146 张图像,涵盖 11 个 unsafe 类别和两种来源(现实世界和 AI 生成)。
特点
UnsafeBench 数据集是当前图像安全领域中最为全面的数据集之一,包含 11 个 unsafe 类别的图像,每种类别包含 769-1,151 张图像。数据集的每个图像都配备了三种类型的标签:1)图像是否为 safe;2)如果为 unsafe,则属于哪个 unsafe 类别;3)图像是否来自现实世界或 AI 生成内容。这些特点增强了数据集的可用性,为未来图像安全分类器的研究奠定了基础。
使用方法
数据集可用于评估和比较不同图像安全分类器的性能。通过在数据集上进行测试,研究人员可以了解不同分类器在不同 unsafe 类别上的效果和鲁棒性。此外,数据集还可以用于训练新的图像安全分类器,以提高其检测和分类 unsafe 内容的能力。
背景与挑战
背景概述
图像安全分类器在识别和减轻网络中不安全图像的传播方面发挥着重要作用。随着文本到图像模型的出现和对AI模型安全性的日益关注,开发者越来越依赖于图像安全分类器来保护他们的模型。然而,目前图像安全分类器在现实世界和AI生成的图像上的性能仍然未知。为了填补这一研究空白,我们提出了UnsafeBench,一个评估图像安全分类器有效性和鲁棒性的基准测试框架。首先,我们策划了一个包含10K真实世界和AI生成的图像的大型数据集,并根据11个不安全图像类别(性、暴力、仇恨等)对图像进行标注。然后,我们评估了五个流行的图像安全分类器的有效性和鲁棒性,以及三个由通用视觉语言模型驱动的分类器。我们的评估表明,现有的图像安全分类器在减轻不安全图像的多方面问题方面还不够全面和有效。我们还发现,仅在真实世界图像上训练的分类器在应用于AI生成的图像时往往会降低性能。受这些发现启发,我们设计和实现了一个名为PerspectiveVision的全面图像审查工具,它可以有效地识别11个类别的真实世界和AI生成的图像。最好的PerspectiveVision模型在六个评估数据集上实现了0.810的总体F1-Score,与像GPT-4V这样的闭源和昂贵的最先进模型相当。UnsafeBench和PerspectiveVision可以帮助研究界更好地了解生成时代图像安全分类的格局。
当前挑战
现有的图像安全分类器在减轻不安全图像的多方面问题方面还不够全面和有效。我们还发现,仅在真实世界图像上训练的分类器在应用于AI生成的图像时往往会降低性能。受这些发现启发,我们设计和实现了一个名为PerspectiveVision的全面图像审查工具,它可以有效地识别11个类别的真实世界和AI生成的图像。最好的PerspectiveVision模型在六个评估数据集上实现了0.810的总体F1-Score,与像GPT-4V这样的闭源和昂贵的最先进模型相当。UnsafeBench和PerspectiveVision可以帮助研究界更好地了解生成时代图像安全分类的格局。
常用场景
经典使用场景
UnsafeBench数据集主要用于评估和比较图像安全分类器在现实世界和AI生成图像中的有效性和鲁棒性。通过这个数据集,研究人员可以测试和评估现有的图像安全分类器,以及基于视觉语言模型(VLMs)的分类器,以了解它们在不同类型的不安全图像上的表现。此外,UnsafeBench还可以用于训练新的图像安全分类器,并通过比较它们与现有模型的性能来评估其效果。
解决学术问题
UnsafeBench数据集解决了当前图像安全分类器在现实世界和AI生成图像上性能不全面和效果不足的问题。该数据集提供了一个全面的基准,可以帮助研究人员和开发者更好地理解图像安全分类器的性能,并发现它们在检测特定类型的不安全内容时的弱点。此外,UnsafeBench还揭示了AI生成的不安全图像对现有分类器的挑战,并强调了将AI生成图像纳入训练数据以增强模型泛化能力的重要性。
衍生相关工作
UnsafeBench数据集的衍生相关工作包括PerspectiveVision,这是一个基于UnsafeBench数据集开发的图像安全分类工具。PerspectiveVision使用CLIP和LLaVA等预训练模型,并通过线性探测、提示学习和低秩自适应等技术进行微调,以识别和分类11个类别的不安全图像。此外,UnsafeBench数据集还可以用于开发其他图像安全分类器,并与其他数据集和模型进行比较和评估。
以上内容由遇见数据集搜集并总结生成



