BR-Gen

Hugging Face2025-04-19 更新2025-04-20 收录

下载链接：

https://huggingface.co/datasets/clpbc/BR-Gen

下载链接

链接失效反馈

官方服务：

资源简介：

BR-Gen数据集是一个专门为定位AI生成图像检测而设计的 novel 数据集，采用伪造放大方法。该数据集包含15万张局部生成的图像，这些图像是通过传统的图像修复方法（MAT、LaMa）和文本引导的图像修复方法（SDXL、BrushNet、PowerPaint）生成的。每个真实图像对应2个区域遮罩和10张局部生成的图像。数据集用于训练和测试，为了防止类别不平衡的影响，对生成的图像进行抽样以保持与真实样本数量相同。

创建时间：

2025-04-19

搜集汇总

数据集介绍

构建方式

在数字图像伪造检测领域，BR-Gen数据集通过创新的局部生成技术构建而成。研究团队采用两套掩膜系统（Stuff和Background）结合五种修复方法（LaMa、MAT、SDXL、BrushNet和PowerPaint），对来自COCO、ImageNet和Places等公开数据集的原始图像进行局部篡改。每张真实图像对应2种掩膜和10种生成方式，最终形成包含15万张局部生成图像的大规模数据集，并通过分层抽样确保训练集（12万）、验证集（1.5万）和测试集（1.5万）的类别平衡。

特点

该数据集的核心价值在于其独特的局部伪造特性与多模态生成技术。不同于传统完整图像生成，BR-Gen专注于图像局部区域的精细伪造，提供配套的区域掩膜标注，支持像素级的篡改检测研究。五种差异化的修复方法覆盖传统修复（MAT、LaMa）与AI驱动修复（SDXL等），构建了多尺度的伪造特征表达。数据集严格遵循学术规范，仅包含衍生生成的局部图像与掩膜，原始图像需研究者按文件名列表从源数据集合规获取。

使用方法

研究者可通过Google Drive或百度网盘下载数据集压缩包，解压后获得按真实图像文件名组织的局部生成图像及对应掩膜。使用前需自行从COCO2017_train等指定源数据集提取原始图像，通过文件名列表完成数据配对。该数据集专为学术机构设计，适用于局部图像伪造检测模型的训练与评估，建议结合论文提出的'伪造放大'方法进行特征增强。使用时需严格遵守非商业用途限制，并注意不同源数据集的原始使用协议。

背景与挑战

背景概述

BR-Gen数据集由厦门大学研究团队于2024年提出，旨在解决AI生成图像局部检测这一前沿问题。该数据集基于arXiv预印本论文《Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach》构建，包含15万张经过传统修复方法（如MAT、LaMa）和文本引导修复方法（如SDXL、BrushNet、PowerPaint）处理的局部生成图像。数据集创新性地采用区域掩码和局部生成图像的双重标注方式，为数字图像真伪鉴别领域提供了重要基准。其数据源整合了COCO、ImageNet和Places等权威视觉数据集，通过多模态伪造技术拓展了生成式图像检测的研究维度。

当前挑战

该数据集主要面临三方面挑战：在领域问题层面，需解决生成图像局部伪影与真实纹理的细微差异识别难题，这对模型的感知灵敏度提出极高要求；技术实现上，平衡五种不同修复方法产生的风格差异与检测一致性构成显著障碍；数据构建过程中，保持15万张图像在区域掩码精度、生成质量及类别分布上的均衡性，需要复杂的质量控制流程。此外，为避免版权争议而采用的间接数据获取方式，增加了研究者的数据预处理复杂度。

常用场景

经典使用场景

在数字图像取证领域，BR-Gen数据集通过提供15万张经过局部篡改的生成图像，为研究者们构建了一个极具挑战性的基准测试平台。该数据集巧妙融合了传统修复方法和文本引导修复方法生成的伪造样本，使得研究人员能够深入探究不同伪造技术在局部区域留下的细微痕迹。特别值得注意的是，每张真实图像对应10种不同伪造方式的变体，这种设计极大丰富了数据集的多样性，为开发鲁棒的AI生成图像检测算法提供了理想条件。

实际应用

在实际应用层面，BR-Gen数据集培育的技术可广泛应用于社交媒体内容审核、新闻真实性核查和司法电子证据鉴定等关键场景。基于该数据集训练的检测模型能够精准识别经过局部修饰的AI生成图像，这对于打击深度伪造技术滥用具有重要现实意义。在金融证件防伪领域，相关技术可有效识别经过篡改的身份证明文件，为构建可信数字身份体系提供技术保障。

衍生相关工作

围绕BR-Gen数据集已衍生出多项具有影响力的研究工作。基于其构建的局部注意力检测框架在CVPR等顶级会议上获得广泛关注，相关方法在细粒度伪造定位任务中展现出显著优势。部分研究者将该数据集与频率域分析相结合，开发出能同时捕捉空域和频域伪造痕迹的混合检测模型。还有工作专注于挖掘不同修复方法在BR-Gen中留下的特征模式，建立了系统的伪造方法识别体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集