five

BR-Gen|图像篡改检测数据集|场景感知数据集

收藏
arXiv2025-04-16 更新2025-04-18 收录
图像篡改检测
场景感知
下载链接:
https://github.com/clpbc/BR-Gen
下载链接
链接失效反馈
资源简介:
BR-Gen是一个大规模、高质量的图像数据集,包含150,000张局部篡改的图像,涵盖了多样化的场景感知标注。该数据集由教育部多媒体可信感知与高效计算重点实验室(厦门大学)构建,通过全自动的感知-创建-评估管道,确保了数据的语义完整性和视觉真实性。数据集针对以前数据集忽视的‘事物’和‘背景’类别,如天空、地面、墙壁、草地和植被等,极大地扩展了局部篡改图像的范围。
提供机构:
中国教育部多媒体可信感知与高效计算重点实验室,厦门大学
创建时间:
2025-04-16
AI搜集汇总
数据集介绍
构建方式
BR-Gen数据集通过全自动的Perception-Creation-Evaluation流程构建,确保了语义连贯性和视觉真实感。首先,利用GroundingDINO和SAM2模型定位并生成伪造区域的掩码,同时使用Qwen2.5-VL模型获取语义信息以指导生成内容。随后,采用多种先进的图像修复方法(如LaMa、MAT、SDXL、BrushNet和PowerPaint)生成局部伪造图像。最后,通过多阶段感知评估指标(如BRISQUE、DreamSim和CLIP分数)对生成图像进行质量评估和过滤,确保数据的高质量。
特点
BR-Gen数据集包含150,000张局部伪造图像,覆盖了多样化的场景感知注释,特别关注了传统数据集中被忽视的“stuff”和“background”类别(如天空、地面、植被等)。其特点包括广泛的区域多样性、更真实的伪造效果以及与真实世界编辑模式的强对齐。此外,数据集通过语义校准确保高质量样本,并通过噪声指纹和注意力机制增强伪造特征的检测。
使用方法
BR-Gen数据集适用于训练和评估局部AI生成图像检测模型。使用时,首先将数据集按8:1:1的比例划分为训练集、验证集和测试集,确保数据完整性。研究人员可以利用该数据集训练模型以检测和定位局部伪造区域,并通过噪声指纹和注意力机制增强模型的检测能力。此外,数据集的高质量和多样性使其成为评估模型在复杂场景下泛化能力的理想基准。
背景与挑战
背景概述
BR-Gen数据集由厦门大学可信多媒体感知与高效计算教育部重点实验室联合腾讯优图实验室等机构于2025年提出,旨在解决AI生成图像局部篡改检测领域的核心问题。随着GAN和扩散模型等深度生成技术的快速发展,图像局部编辑的逼真度显著提升,对视觉内容真实性认证提出了严峻挑战。传统数据集主要关注全图生成或对象级篡改,而BR-Gen创新性地聚焦于天空、地面等场景级元素的局部篡改,通过语义校准构建了包含15万样本的大规模基准数据集。该数据集采用全自动的感知-生成-评估流水线构建,显著提升了语义连贯性和视觉真实感,为多媒体取证领域提供了更接近真实场景的研究平台。
当前挑战
BR-Gen数据集面临双重技术挑战:在领域问题层面,现有检测方法对场景级局部篡改的泛化能力不足,主流模型如FatFormer和SparseViT在背景类篡改检测中的召回率下降达62.6%;在构建过程层面,需克服语义连贯性保持与视觉无痕化的矛盾,通过噪声指纹引导的注意力机制解决小尺度篡改特征弱化问题。具体挑战包括:1) 跨材质篡改检测中噪声模式不一致性导致42.6%的跨域性能衰减;2) 多阶段生成质量评估需平衡结构完整性(DreamSim)与语义对齐(CLIP Score)的指标冲突;3) 基于SAM的掩模生成存在20%小尺度区域漏检,需设计概率语义扰动机制进行补偿。
常用场景
经典使用场景
BR-Gen数据集在AI生成图像检测领域具有广泛的应用,特别是在局部伪造图像的检测和定位方面。该数据集通过提供多样化的场景感知注释和高语义一致性的样本,为研究者提供了一个可靠的基准。其经典使用场景包括训练和评估局部AIGC检测模型,如NFA-ViT,这些模型能够识别图像中经过局部修改的区域,如天空、地面等复杂场景元素。
衍生相关工作
BR-Gen数据集衍生了一系列经典工作,其中最突出的是NFA-ViT模型,该模型通过噪声引导的注意力机制显著提升了局部伪造检测的性能。此外,该数据集还促进了其他相关研究,如基于语义校准的图像生成质量评估和多模态对象检测模型的开发。这些工作进一步推动了AI生成图像检测领域的技术进步。
数据集最近研究
最新研究方向
随着AI生成图像编辑工具的快速发展,局部伪造图像的真实性日益提升,这对视觉内容的完整性提出了严峻挑战。BR-Gen数据集的推出填补了现有数据集中在场景级编辑方面的空白,特别是针对天空、地面等背景区域的伪造检测。该数据集通过全自动的Perception-Creation-Evaluation流程构建,确保了语义连贯性和视觉真实性,为局部伪造检测提供了高质量基准。与此同时,NFA-ViT模型的提出通过噪声引导的注意力机制,有效放大了伪造相关特征,提升了局部伪造的检测鲁棒性。这一研究不仅在技术上推动了AI生成内容检测的前沿发展,也为社交媒体内容真实性验证等实际应用提供了重要支持。
相关研究论文
  • 1
    Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach中国教育部多媒体可信感知与高效计算重点实验室,厦门大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录