RAID
收藏arXiv2025-06-05 更新2025-06-06 收录
下载链接:
https://huggingface.co/datasets/aimagelab/RAID
下载链接
链接失效反馈官方服务:
资源简介:
RAID数据集是一个用于测试AI生成图像检测器对抗鲁棒性的大型数据集,包含72k个多样且高度可迁移的对抗性示例。该数据集通过使用多种对抗性攻击方法对七个最先进的检测器和四种不同的文本到图像模型生成的图像进行攻击而创建。实验结果表明,这些对抗性图像在迁移到未见过的检测器上时具有较高的成功率,可用于快速评估检测器的对抗鲁棒性。数据集的创建旨在解决当前AI生成图像检测器易受对抗性示例欺骗的问题,强调了开发更鲁棒方法的重要性。
The RAID dataset is a large-scale benchmark dataset designed for evaluating the adversarial robustness of AI-generated image detectors. It contains 72,000 diverse and highly transferable adversarial examples. This dataset is constructed by applying multiple adversarial attack methods to images generated by four distinct text-to-image models, targeting seven state-of-the-art AI-generated image detectors to generate these adversarial samples. Experimental results demonstrate that these adversarial images exhibit high success rates when transferred to unseen detectors, making them suitable for rapid assessment of the adversarial robustness of detectors. The dataset was developed to address the prevalent issue that current AI-generated image detectors are easily deceived by adversarial examples, underscoring the significance of developing more robust detection methodologies.
提供机构:
意大利卡利亚里大学, 德国鲁尔波鸿大学, 意大利摩德纳和雷焦艾米利亚大学, 意大利比萨大学, 意大利罗马大学, 意大利CINI
创建时间:
2025-06-04
原始信息汇总
数据集概述
基本信息
- 数据集名称: RAID
- 托管平台: Hugging Face
- 许可证: MIT
许可证说明
- 许可证类型: MIT
搜集汇总
数据集介绍

构建方式
RAID数据集的构建基于D3数据集,通过对抗样本生成技术创建。首先,从D3数据集中选取真实图像和由四种文本到图像模型生成的合成图像。随后,采用集成对抗攻击方法,针对七种最先进的AI生成图像检测器生成对抗样本。对抗样本的生成采用PGD算法,通过多次迭代优化扰动,确保其高转移性。最终,RAID数据集包含72,000个对抗样本,覆盖多种扰动强度,为评估检测器的对抗鲁棒性提供了标准化基准。
特点
RAID数据集的特点在于其多样性和高转移性。数据集中的对抗样本由多种文本到图像模型生成,覆盖了广泛的视觉内容和风格。通过集成对抗攻击方法,生成的对抗样本能够有效欺骗多种检测器,展现出强大的转移能力。此外,RAID数据集还包含了不同扰动强度的对抗样本,为研究检测器在不同攻击强度下的表现提供了丰富的数据支持。这些特点使得RAID成为评估AI生成图像检测器对抗鲁棒性的重要工具。
使用方法
RAID数据集的使用方法主要包括对抗鲁棒性评估和检测器性能测试。研究人员可以将待评估的检测器应用于RAID数据集中的对抗样本,通过计算检测器的准确率、F1分数和AUROC等指标,评估其在对抗攻击下的表现。此外,RAID数据集还可用于研究对抗样本的转移性,通过比较不同检测器在相同对抗样本上的表现,分析检测器之间的鲁棒性差异。数据集的使用代码和详细指南已在Hugging Face和GitHub上公开,便于研究人员快速上手。
背景与挑战
背景概述
RAID数据集由意大利卡利亚里大学、德国波鸿鲁尔大学、意大利摩德纳雷焦艾米利亚大学等机构的研究团队于2025年提出,旨在评估AI生成图像检测器的对抗鲁棒性。随着生成式人工智能技术的快速发展,AI生成的图像质量已达到人类难以区分的水平,这带来了欺诈和虚假信息的风险。RAID数据集包含72,000个多样化的对抗样本,通过攻击七种最先进的检测器和四种文本到图像生成模型生成,为研究社区提供了一个标准化工具来评估检测器的对抗鲁棒性。该数据集的发布填补了当前AI生成图像检测领域在对抗鲁棒性评估方面的空白。
当前挑战
RAID数据集面临的主要挑战包括:1) 领域问题挑战:当前最先进的AI生成图像检测器在对抗样本面前表现脆弱,容易被精心设计的对抗噪声欺骗,这突显了开发更鲁棒检测方法的紧迫性;2) 构建过程挑战:生成具有高迁移性的对抗样本需要攻击多样化的检测器架构,同时确保对抗样本在不同检测器间的有效迁移;此外,数据集需要定期更新以涵盖新兴的生成模型,保持评估的相关性。
常用场景
经典使用场景
RAID数据集专为评估AI生成图像检测器的对抗鲁棒性而设计。在计算机视觉领域,随着生成对抗网络(GANs)和扩散模型(Diffusion Models)的快速发展,AI生成的图像质量已达到以假乱真的程度。RAID通过构建72,000个多样且高度可迁移的对抗样本,为研究人员提供了一个标准化平台,用于测试检测器在面对精心设计的对抗攻击时的表现。这些对抗样本是通过对七种最先进的检测器和四种文本到图像生成模型进行攻击而生成的,确保了数据集的广泛覆盖性和代表性。
衍生相关工作
RAID数据集已经衍生出多项相关研究工作。例如,基于RAID的对抗鲁棒性分析推动了新型检测架构的开发,如结合CLIP特征提取器的混合模型。此外,该数据集还被用于研究对抗样本的跨模型迁移性,促进了对抗防御技术的创新。一些研究团队利用RAID开发了集成防御策略,通过组合多种检测方法提高系统整体鲁棒性。这些工作共同推动了AI生成图像检测领域向更安全、更可靠的方向发展。
数据集最近研究
最新研究方向
随着生成式人工智能技术的迅猛发展,AI生成图像的质量已达到人类难以分辨真伪的水平,这对社会诚信和信息安全构成了严峻挑战。RAID数据集的提出,为评估AI生成图像检测器的对抗鲁棒性提供了标准化工具,填补了该领域的研究空白。该数据集通过集成七种最先进的检测器和四种文本到图像生成模型,生成了72,000个多样且高度可迁移的对抗样本。最新研究表明,当前先进的AI生成图像检测器在面对精心设计的对抗样本时表现脆弱,这一发现强调了开发更具鲁棒性检测方法的紧迫性。RAID数据集的发布不仅为研究人员提供了评估检测器对抗鲁棒性的便捷途径,也推动了该领域对抗防御技术的发展,对维护数字内容的真实性和安全性具有重要意义。
相关研究论文
- 1RAID: A Dataset for Testing the Adversarial Robustness of AI-Generated Image DetectorsUniversity of Cagliari, Italy; Ruhr University Bochum, Germany; University of Modena and Reggio Emilia, Italy; University of Pisa, Italy; Sapienza University of Rome, Italy; CINI, Italy · 2025年
以上内容由遇见数据集搜集并总结生成



