RAID

arXiv2024-05-14 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2405.07940v1

下载链接

链接失效反馈

官方服务：

资源简介：

RAID是一个用于机器生成文本检测的最大和最具挑战性的基准数据集，包含超过600万条生成文本，涵盖11个模型、8个领域、11种对抗性攻击和4种解码策略。

RAID is the largest and most challenging benchmark dataset for machine-generated text detection, containing over 6 million generated texts spanning 11 models, 8 domains, 11 adversarial attacks, and 4 decoding strategies.

创建时间：

2024-05-14

搜集汇总

数据集介绍

构建方式

RAID数据集基于D³数据集构建，D³包含来自LAION-400M的230万张真实图像及由四种文本到图像模型（Stable Diffusion v1.4、v2.1、SDXL、DeepFloyd IF）生成的920万张合成图像。研究团队首先在D³训练子集上重新训练了七个最先进的检测器中的四个表现欠佳者，以确保其具备足够的原始图像检测性能。随后，基于4800张新的真实图像生成合成图像，并采用投影梯度下降算法，以集成攻击方式同时针对这七个检测器计算对抗扰动。扰动约束设置为三种不同的ℓ∞范数边界（8/255、16/255、32/255），最终为每张原始图像生成对应的对抗样本，总计包含72000个对抗示例和24000张原始图像，以PNG格式保存以避免有损压缩导致的信息损失。

使用方法

RAID数据集可直接用于评估AI生成图像检测器的对抗鲁棒性。使用者需将待测检测器在数据集包含的原始图像与对抗图像上分别进行推理，通过对比F1分数、准确率及AUROC等指标的下降幅度，量化其脆弱性。研究建议优先使用扰动强度ϵ=32/255的对抗样本进行压力测试，因为该设置下大多数检测器的性能接近于随机猜测。数据集以标准PNG图像格式提供，便于直接加载至常见深度学习框架。使用者也可将对抗样本作为训练数据，通过对抗训练提升检测器的鲁棒性，或进一步分析不同扰动强度对特定架构的影响。

背景与挑战

背景概述

随着生成式人工智能技术的迅猛发展，特别是扩散模型等文本到图像生成模型的成熟，AI生成图像已臻至难以与真实图像区分的境地，这为虚假信息传播、欺诈等恶意行为提供了可乘之机。为应对这一威胁，AI生成图像检测技术成为研究热点。然而，现有检测方法多在理想化实验室条件下评估，其面对对抗性攻击时的鲁棒性常被忽视。在此背景下，由意大利卡利亚里大学、德国波鸿鲁尔大学等多所机构的研究人员于2025年共同创建的RAID数据集应运而生。该数据集旨在为AI生成图像检测器提供一个标准化、可量化的对抗鲁棒性评估基准，通过构建72,000张高迁移性的对抗样本，系统性地揭示了当前最先进检测器在对抗攻击面前的脆弱性，对推动该领域从理想化评估向真实世界鲁棒性验证的转变具有里程碑意义。

当前挑战

RAID数据集所面临的挑战是多层面的。首先，在领域问题层面，当前AI生成图像检测器普遍缺乏对对抗性攻击的鲁棒性，多数研究仅关注对常见图像后处理操作（如缩放、压缩）的抵抗力，而忽略了恶意攻击者利用精心设计的对抗扰动即可轻易绕过检测的现实威胁。其次，在数据集构建过程中，挑战尤为突出：确保生成的对抗样本具有高度迁移性，使其能有效欺骗未知检测器，需要精心设计基于多模型集成的攻击策略；同时，为避免数据漂移和性能下降，必须对部分检测器在D³训练集上进行重新训练，以保证攻击的有效性与评估的公平性；此外，数据集需持续更新以应对新兴生成模型，这要求构建流程具备动态扩展能力。

常用场景

经典使用场景

RAID数据集的核心经典使用场景在于对AI生成图像检测器进行对抗鲁棒性的标准化评估。在生成式人工智能迅猛发展的当下，AI合成图像已臻至以假乱真的境地，对虚假信息传播与欺诈行为构成了严峻挑战。尽管现有检测器在理想化实验室条件下表现卓越，但其在真实世界中对精心设计的对抗性扰动的抵御能力却鲜有考量。RAID数据集正是为此而生，它提供了一个包含72,000张高迁移性对抗样本的基准，允许研究者在统一的框架下，通过黑盒或白盒攻击范式，快速而可靠地衡量检测器在面对对抗性攻击时的性能衰减程度，从而揭示其脆弱性。

解决学术问题

该数据集精准地解决了当前AI生成图像检测领域一个被广泛忽视的学术研究问题，即检测器在面对对抗性攻击时的鲁棒性评估缺失。此前，多数研究仅关注检测器对常见图像后处理操作（如JPEG压缩、缩放）的泛化能力，却忽略了恶意攻击者可能利用精心设计的、人眼难以察觉的扰动来轻易规避检测。RAID通过构建基于集成攻击的高迁移性对抗样本库，系统性地揭示了当前最先进的检测器在白盒与黑盒场景下均极易被欺骗的事实，从而警示学界：仅凭在洁净数据上的高准确率远不足以支撑检测器的实际部署，亟需将对抗鲁棒性作为评估检测方法优劣的核心指标。

实际应用

在实际应用层面，RAID数据集为部署于社交媒体、新闻平台及金融安全等关键领域的AI生成图像检测系统提供了至关重要的压力测试工具。例如，在打击利用AI伪造图像进行虚假新闻传播或市场操纵的场景中，攻击者常会尝试对图像施加微小扰动以绕过监管。通过使用RAID进行评估，平台开发者和安全工程师能够预先识别其检测服务的薄弱环节，并据此进行针对性加固。此外，该数据集还可用于商业检测API（如Sightengine、HIVE）的第三方审计，帮助用户客观了解不同商业方案在真实对抗环境下的防护能力，从而做出更为审慎的技术选型。

数据集最近研究