WildFC
收藏arXiv2026-05-04 更新2026-05-06 收录
下载链接:
https://mever-team.github.io/WildFC/
下载链接
链接失效反馈官方服务:
资源简介:
WildFC是由希腊信息技术研究所CERTH构建的AI生成图像检测数据集,包含2,884条真实场景采集的实例和5,439条来自19种现代生成模型的合成图像。数据通过事实核查文章检索的弱监督流程自动化构建,结合语义对齐的视觉相似性匹配技术,形成真实-生成图像对。该数据集专为持续学习框架设计,旨在解决生成模型快速迭代导致的检测器分布偏移问题,适用于社交媒体内容验证、深度伪造检测等安全领域。
WildFC is an AI-generated image detection dataset developed by CERTH (Centre for Research and Technology Hellas, the Greek Information Technology Research Institute). It consists of 2,884 real-world collected instances and 5,439 synthetic images generated from 19 modern generative models. The dataset was automatically constructed via a weakly-supervised workflow leveraging fact-checking article retrieval, combined with semantically aligned visual similarity matching techniques to form real-synthetic image pairs. Specifically designed for continual learning frameworks, this dataset aims to address the distribution shift problem of detectors caused by the rapid iteration of generative models, and is applicable to security domains including social media content verification and deepfake detection.
提供机构:
信息技术研究所·CERTH
创建时间:
2026-05-04
搜集汇总
数据集介绍

构建方式
WildFC数据集通过自动化的事实核查文章检索流程构建而成。研究团队从Google Fact Check Tools和DBKF等来源获取3841篇涉及AI生成内容的文章,利用Qwen3-8B-FP8大语言模型提取图像描述和URL,并经Crawl4AI等工具收集10387张候选图像。随后使用Qwen2.5-VL-7B-Instruct视觉语言模型进行锚点图像筛选,结合CLIP ViT-L/14图像编码器扩展相似图像集合,最终经Grounding DINO Tiny分割处理,获得2884张在野AI生成图像,同时辅以213674张来自新闻和社交媒体的真实图像。
特点
该数据集的核心特点在于其动态演进的时序性,涵盖2025年期间采集的图像,反映了生成模型与用户行为共同驱动的分布漂移。数据集采用弱监督自动标注方式,经人工验证达到91.95%的精确率,包含JPEG、PNG等多种格式,分辨率跨度从0.06 MP至16.78 MP。更重要的是,它实现了在野数据与生成器驱动数据的有机整合,前者捕获真实世界中的后处理、编辑和平台特定变换,后者则追踪新兴生成模型带来的伪造痕迹变化。
使用方法
该数据集主要用于持续学习框架下的AI生成图像检测器自适应训练。使用时需将WildFC与同期生成器数据(如AIGenImages2026)及重放缓冲区结合,按时间阶段组织为增量任务。具体操作中,检测器在每个更新时间点接受由在野数据、新生成器样本和积累的历史数据构成的训练集,配合5%的重放比例缓解灾难性遗忘。实验证明这种方法在RINE和SPAI检测器上分别带来8%和9.14%的平均准确率提升,尤其适用于需要平衡近期生成器泛化与在野场景鲁棒性的实际部署场景。
背景与挑战
背景概述
生成式人工智能的迅猛发展使得AI生成图像的检测成为一项严峻挑战。在此背景下,希腊信息技术研究所(CERTH)的Thanasis Pantsios、Dimitrios Karageorgiou等研究人员于2026年提出了WildFC数据集。该数据集的核心研究问题在于解决现有AI图像检测器在分布偏移和新兴生成模型面前性能急剧下降的困境。WildFC通过一种自动化、弱监督的事实核查文章检索流程,从真实网络环境中收集了2,884张AI生成图像,并配套构建了包含213,674张真实图像的大规模野采数据集。这一数据集的问世为持续学习框架下的动态检测提供了宝贵资源,显著推动了AI生成图像检测领域从静态基准向真实世界演变场景的跨越。
当前挑战
WildFC所应对的领域挑战首先是AI图像检测中的分布偏移问题:新生成模型的不断涌现和用户交互方式的多样化导致合成图像的分布持续变化,使得传统静态训练模型在现实场景中大幅失效。其次,构建过程面临数据自动标注和质量控制的难题:依赖弱监督的事实核查文章自动提取图像,不可避免地引入了标签噪声,例如事实核查员无法给出明确结论的模糊案例或被断章取义的实图像。此外,从复杂网页内容中精准分割出有意义视觉区域、并通过多模态模型实现语义对齐,亦对技术管线提出了苛刻要求。这些挑战共同凸显了在动态演化环境中构建高质量、可信任数据集的复杂性。
常用场景
经典使用场景
在生成式人工智能飞速发展的时代背景下,AI生成图像的检测已成为数字媒体取证领域的一项核心挑战。WildFC数据集的设计初衷,便是为持续学习框架下的AI生成图像检测提供真实场景下的数据支撑。其最经典的使用场景,是在非平稳数据分布中评估和训练检测模型的鲁棒性。通过整合从事实核查文章自动挖掘的真实世界AI生成图像,与由19个最新生成模型产出的合成图像,WildFC为研究者搭建了一座连接实验室可控环境与现实复杂场景的桥梁。该数据集特别适用于模拟检测模型在面对新兴生成器、后处理操作及社交媒体传播效应时的性能退化问题,从而推动更具泛化能力的检测算法诞生。
实际应用
WildFC数据集在现实世界的数字内容治理体系中具有重要的应用价值。其构建流程本身即可被新闻机构和社交媒体平台采纳,用于自动化地建立AI生成内容的监测数据库。例如,通过部署WildFC所依赖的事实核查检索管道,事实核查组织能够在虚假图像传播的早期阶段,快速定位并标注可疑的AI生成内容,从而显著提升辟谣效率。此外,该数据集训练出的检测模型可直接嵌入社交媒体后台的内容审核系统,实时识别用户上传的图像是否为AI合成产物,有效遏制利用深度伪造进行欺诈、操控舆论或传播虚假信息的风险。这种将弱监督数据采集与持续学习相结合的方法论,为构建能够适应技术迭代的弹性检测系统提供了可行的工程化路径。
衍生相关工作
WildFC数据集的诞生催生了一系列富有启发性的后续工作,尤其是在持续学习和数据驱动检测领域。基于其提出的自动化事实核查检索管道,后续研究者进一步探索了如何利用多模态大语言模型提升弱监督标注的精确度,发展了更为鲁棒的图像-文本对齐策略。在模型架构层面,受WildFC中野生数据与合成数据互补性质的启发,衍生出了若干融合专家嵌入器的集成学习框架(如E3),这些框架通过为不同生成器配置专门的特征提取模块,实现了对新兴模型的高效自适应。此外,该数据集与回放机制的结合验证了轻量级更新策略的有效性,直接推动了如LiteUpdate等参数高效微调方法的发展,这类工作在保持检测精度的同时大幅降低了计算开销,为边缘设备上的实时检测部署铺平了道路。
以上内容由遇见数据集搜集并总结生成



