GenShield-Set

Name: GenShield-Set
Creator: 北京大学·电子与计算机工程学院; 腾讯优图实验室
Published: 2026-05-16 00:06:20
License: 暂无描述

arXiv2026-05-16 更新2026-05-19 收录

下载链接：

https://github.com/zhipeixu/GenShield

下载链接

链接失效反馈

官方服务：

资源简介：

GenShield-Set是由北京大学与腾讯优图实验室联合构建的专用于AI生成图像检测与伪影校正的高质量数据集。该数据集包含约7.8万条数据，其中校正子集基于SynthScars的异常图像与文本标注，通过提示增强与专家过滤生成精确对齐的“伪影-修复”图像对；检测子集则提供结构化答案以支持可解释性分析。数据构建过程采用先进图像编辑工具生成候选修复结果，并经过人工专家筛选确保语义一致性与视觉真实性。该数据集旨在解决生成图像中伪影的联合检测与修复问题，推动数字取证与内容审核领域的技术发展。

GenShield-Set is a high-quality dataset dedicated to AI-generated image detection and artifact correction, jointly constructed by Peking University and Tencent Youtu Lab. It contains approximately 78,000 data entries. The correction subset, based on the anomalous images and text annotations from SynthScars, generates precisely aligned "artifact-repair" image pairs through prompt augmentation and expert filtering. The detection subset provides structured answers to support interpretability analysis. During the dataset construction process, advanced image editing tools are used to generate candidate correction results, which are then screened by human experts to ensure semantic consistency and visual authenticity. This dataset aims to address the joint detection and correction of artifacts in generated images, and promote technological advancements in the fields of digital forensics and content moderation.

提供机构：

北京大学·电子与计算机工程学院; 腾讯优图实验室

创建时间：

2026-05-16

原始信息汇总

根据您提供的数据集详情页面地址和README文件内容，以下是对该数据集的概述：

数据集概述

数据集名称：GenShield
所属会议：ICML 2026
核心功能：统一检测与伪影校正，针对AI生成图像
- 检测：识别图像是否为AI生成
- 伪影校正：对AI生成图像中的伪影进行修复或校正
项目地址：https://github.com/zhipeixu/GenShield

搜集汇总

数据集介绍

构建方式

GenShield-Set基于SynthScars和Holmes-Set两大数据集构建，分为校正子集与检测子集。针对校正任务，从SynthScars中提取异常合成图像及其文本标注，通过提示增强技术生成标准化修复指令，利用先进图像编辑器Nano Banana Pro生成校正候选图像，并经由人工专家筛选去除修复不完全、内容漂移等低质量样本，最终获得超过10K的高质量“伪影-修复”图像对。同时，利用训练阶段一的中间结果生成中等质量校正图像以支撑多轮迭代校正。检测子集则基于Holmes-Set，将原始标注转化为包含真实性预测、图像描述和证据解释的结构化格式，生成66K图像-文本对用于训练。

特点

GenShield-Set的显著特点在于其大规模、高质量且精准对齐的“伪影-修复”图像对，填补了现有检测任务数据集中缺乏配对修复目标的空白。该数据集不仅提供异常图像与详细文本标注，还包含经过严格筛选的视觉保真度和语义一致性极高的校正图像。更为独特的是，数据集设计了终止诊断标注，明确指示当图像已正常时停止修复，为迭代式视觉思维链（VCoT）自我校正提供显式停止准则。此外，通过引入中间状态的中等质量校正图像，数据集支持多轮交替的诊断-修复训练，模拟从局部修复到完全校正的渐进过程。

使用方法

GenShield-Set专为联合训练可解释的AIGI检测与伪影校正任务而设计。在训练阶段一，数据集用于同时优化检测专家和指令引导的校正专家，使模型学习从异常图像到高质量修复图像的映射。在训练阶段二，数据集支持多步VCoT自我校正训练，模型从简单提示和初始图像出发，依次生成诊断文本、执行条件校正，并利用终止诊断自动停止迭代过程。检测任务在整个训练过程中保持活跃，使检测与校正通过共享注意力机制相互增强，实现从诊断到修复的闭环协同。

背景与挑战

背景概述

GenShield-Set数据集由北京大学与腾讯优图实验室的研究人员于2026年联合构建，旨在解决扩散模型生成图像日益逼真所引发的真实性验证危机。随着AI生成图像在社交媒体、数字取证与内容审核等关键领域的泛滥，传统仅聚焦于真假二分类的检测范式已难以满足实际需求。该数据集的核心研究问题在于填补可解释性检测与伪影修复之间的鸿沟，通过构建大规模、高质量的“伪影-修复”图像配对数据，为统一检测与校正框架提供训练基础。其影响力在于开创性地将被动验证转向主动修复，为AI图像取证领域提供了全新的研究范式与基准平台。

当前挑战

当前AI生成图像检测与校正面临多重挑战：在领域问题层面，现有方法多将检测与校正割裂处理，忽视了二者间的协同促进关系，且校正任务因缺乏配对修复目标而发展缓慢；传统流水线依赖精准定位与冻结修补模型，导致校正质量受限于定位精度与模型瓶颈，易引入二次伪影。在构建过程中，GenShield-Set面临的挑战包括：如何利用先进编辑器生成大规模、高质量且对齐的修复目标，如何通过专家筛选机制剔除修复失败、内容漂移或细节丢失等无效样本，以及如何设计终止诊断数据以支撑多轮迭代推理中的自适应停止策略。

常用场景

经典使用场景

GenShield-Set 最经典的使用场景是作为联合训练与评估统一框架的标注数据集，用于同时支持可解释的 AI 生成图像检测与可控的伪影校正。该数据集包含大规模、高质量的“伪影—修复”图像对，填补了此前仅关注检测任务的数据集在修复监督上的空白。研究者可基于此数据集训练模型在单一框架下既输出包含真实性判断与证据链的结构化检测结果，又能通过指令引导或迭代视觉思维链（VCoT）方式对图像进行精细修复，实现从诊断到修复的闭环流程。

衍生相关工作

该数据集衍生了一系列推动统一理解—生成建模方向的重要工作。基于 GenShield-Set，研究者可以开发类似视觉思维链（VCoT）的迭代自校正策略，将单步修复扩展为多轮诊断与修复交替的精细流程。此外，该数据集启发了在混合专家变换器（MoT）架构下联合优化检测与修复任务的研究范式，推动了诸如“诊断—修复”课程学习策略、多轮终止判决机制以及基于流匹配的修复目标建模等技术的进展，为下一代可信生成系统的研究奠定了坚实基础。

数据集最近研究