BR-Gen

github2025-04-22 更新2025-04-24 收录

下载链接：

https://github.com/clpbc/BR-Gen

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含150k局部生成的图像，通过传统的修复方法（MAT、LaMa）和文本引导的修复方法（SDXL、BrushNet、PowerPaint）伪造。我们提供了区域掩码和局部生成的图像。

This dataset encompasses 150k locally generated images,伪造 by conventional restoration techniques (MAT, LaMa) and text-guided restoration methods (SDXL, BrushNet, PowerPaint). We provide regional masks and locally generated images.

创建时间：

2025-04-16

原始信息汇总

BR-Gen数据集概述

数据集简介

名称：Broader Region Generated (BR-Gen)
提出论文：Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach
用途：专注于局部AI生成图像检测

数据集内容

数据量：15万张局部生成图像
数据组成：
- 区域掩码（Region Masks）
- 局部生成图像（Localized Generated Images）

生成方法

掩码类型：
- Stuff
- Background
修复方法：
- 传统修复方法：MAT、LaMa
- 文本引导修复方法：SDXL、BrushNet、PowerPaint

数据集规格

每张真实图像对应：
- 2种掩码
- 10张局部生成图像（2掩码 × 5修复方法）
数据集划分：

数据集划分真实图像数量局部生成图像数量

训练集 12,000 120,000

测试集 1,500 15,000

验证集 1,500 15,000

总计 15,000 150,000

下载信息

下载链接：
- Google Drive
- 百度网盘（密码：cclp）
原始图像来源：
- COCO2017_train：下载链接
- ImageNet：下载链接
- Places：下载链接

许可信息

许可类型：仅限学术研究
使用限制：非商业用途

引用方式

bib @article{cai2025zooming, title={Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach}, author={Cai, Lvpan and Wang, Haowei and Ji, Jiayi and ZhouMen, YanShu and Ma, Yiwei and Sun, Xiaoshuai and Cao, Liujuan and Ji, Rongrong}, journal={arXiv preprint arXiv:2504.11922}, year={2025} }

搜集汇总

数据集介绍

构建方式

在数字图像取证领域，BR-Gen数据集通过创新的局部伪造方法构建而成。研究团队从COCO、ImageNet和Places等权威数据集中精选15,000张真实图像作为基础，采用两种区域掩模（Stuff和Background）与五种修复方法（LaMa、MAT、SDXL、BrushNet和PowerPaint）的组合策略，通过传统修复和文本引导修复技术生成15万张局部伪造图像。为确保学术规范性，数据集仅提供区域掩模和伪造图像，原始图像需用户根据提供的文件名列表从源数据集提取。

特点

该数据集最显著的特征在于其精细的局部伪造标注和多样化的生成方式。每张真实图像对应10种不同处理方式的衍生图像，涵盖物体区域和背景区域两种掩模类型，以及传统与AI驱动两类修复技术。数据划分科学合理，训练集、验证集和测试集的比例为8:1:1，并通过采样策略有效避免了类别不平衡问题。数据集特别强调对小尺度伪造和空间细微篡改的检测能力，为局部AI生成图像检测研究提供了极具挑战性的基准。

使用方法

研究者可通过Google Drive或百度网盘获取数据集压缩包，解压后按照文件结构中的图像列表匹配原始图像。配套提供的IMDLBenCo代码库支持数据加载和模型测试，用户需配置Python 3.9环境并安装指定依赖。典型使用流程包括：通过train.sh脚本训练噪声引导伪造放大视觉Transformer（NFA-ViT）模型，再利用test.sh评估模型在局部伪造检测任务上的性能。数据集严格限定于非商业学术研究用途，使用时需遵守相关许可协议并正确引用原始论文。

背景与挑战

背景概述

BR-Gen数据集由厦门大学等机构的研究团队于2025年提出，旨在解决人工智能生成图像（AIGC）检测领域的核心问题——局部伪造区域的精准识别。该数据集基于arXiv预印本论文《Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach》构建，包含15万张通过传统修复方法（MAT、LaMa）和文本引导修复方法（SDXL、BrushNet、PowerPaint）生成的局部伪造图像，并配套提供区域掩膜标注。数据集源图像采集自COCO、ImageNet和Places等公开数据集，通过双重掩膜（Stuff/Background）与五种修复方法的组合，为每张真实图像生成10种变体，显著提升了局部伪造检测任务的多样性要求。作为首个专注于细粒度AIGC检测的基准数据集，BR-Gen为数字内容取证领域提供了关键的研究基础设施。

当前挑战

BR-Gen数据集面临的挑战主要体现在两个维度：在领域问题层面，局部AI生成图像检测需克服伪造区域空间占比小（平均不足图像面积10%）、伪造痕迹与真实区域高度融合（如BrushNet生成的语义连贯修补）等技术难点；在构建过程层面，研究团队需平衡15万样本的规模需求与标注质量控制，通过设计分层采样策略避免COCO等源数据的类别偏差，同时解决多模态修复方法（传统/文本引导）导致的伪造特征异质性难题。此外，为保持学术合规性，数据集构建需严格遵守源图像的版权协议，采用文件名映射而非直接分发的创新方案。

常用场景

经典使用场景

在数字图像取证领域，BR-Gen数据集通过提供15万张局部生成图像，为研究者探索AI生成图像的局部检测技术提供了重要资源。该数据集结合传统修复方法和文本引导修复方法，模拟了多种伪造场景，使得研究者能够深入分析不同伪造技术在局部区域的表现。其经典使用场景包括训练和评估局部伪造检测算法，特别是在小范围或空间细微伪造的识别任务中展现出独特价值。

衍生相关工作

围绕BR-Gen数据集，研究者已开展多项创新工作，其中最典型的是与其配套提出的NFA-ViT模型。该模型采用双分支架构和调制自注意力机制，显著提升了局部伪造检测性能。此外，基于该数据集的基准测试平台IMDLBenCo也促进了多种检测方法的比较与优化，推动了该领域的算法进步。

数据集最近研究

数据集划分	真实图像数量	局部生成图像数量
训练集	12,000	120,000
测试集	1,500	15,000
验证集	1,500	15,000
总计	15,000	150,000