five

DDA-Training-Set

收藏
Hugging Face2025-12-15 更新2025-12-16 收录
下载链接:
https://huggingface.co/datasets/Junwei-Xi/DDA-Training-Set
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是论文《Dual Data Alignment Makes AI-Generated Image Detector Easier Generalizable》的核心训练数据,旨在解决传统AIGI检测数据集中的格式偏差、内容偏差和大小偏差问题。数据集基于MSCOCO训练集构建,使用Dual Data Alignment (DDA)技术生成合成图像,确保真实图像和合成图像在像素和频率域高度对齐。数据集包含真实图像(来自MSCOCO训练集)和对应的DDA对齐合成图像,存储格式为PNG,并进行了空间对齐预处理以避免格式偏差。
创建时间:
2025-12-09
原始信息汇总

DDA Training Set 数据集概述

数据集基本信息

  • 数据集名称: DDA Training Set
  • 官方用途: 为论文《Dual Data Alignment Makes AI-Generated Image Detector Easier Generalizable》提供核心训练数据。
  • 关联会议: 第39届神经信息处理系统会议 (NeurIPS 2025)
  • 论文链接: https://arxiv.org/abs/2505.14359
  • 许可证: apache-2.0

数据集描述与目标

本数据集旨在解决传统AI生成图像检测数据集中普遍存在的格式偏差内容偏差尺寸偏差。该数据集基于MSCOCO训练集构建,采用双重数据对齐技术生成合成图像,确保“真实”图像与“伪造”图像在像素域和频域都高度对齐。

数据构成

  • 真实图像: 源自MSCOCO训练集。
  • 合成图像: 每张真实图像对应的、经过DDA对齐的合成图像。

数据集详情与格式

  • 存储目录DDA-COCO_TrainSet/
  • 文件格式PNG(无损格式)。

预处理逻辑

  1. 空间对齐: 对每张真实图像进行裁剪,使其高度和宽度均为8的倍数。此步骤对于确保VAE重建图像在空间分辨率上与原始图像完美对齐至关重要。
  2. 避免格式偏差: 所有真实图像和伪造图像均严格保存为PNG格式。若将裁剪后的真实图像重新保存为JPEG格式,则会经历双重JPEG压缩,从而引入额外的压缩伪影和不希望的格式偏差,可能导致检测器学习压缩历史而非生成伪影。

引用信息

bibtex @inproceedings{chen2025dual, title={Dual Data Alignment Makes {AI}-Generated Image Detector Easier Generalizable}, author={Ruoxin Chen and Junwei Xi and Zhiyuan Yan and Ke-Yue Zhang and Shuang Wu and Jingyi Xie and Xu Chen and Lei Xu and Isabel Guan and Taiping Yao and Shouhong Ding}, booktitle={The Thirty-ninth Annual Conference on Neural Information Processing Systems}, year={2025}, url={https://openreview.net/forum?id=C39ShJwtD5} }

搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能生成图像检测领域,传统数据集常因格式、内容与尺寸偏差而影响模型泛化能力。DDA-Training-Set基于MSCOCO训练集构建,采用双数据对齐技术生成合成图像,确保真实图像与合成图像在像素域与频域高度对齐。构建过程中,每张真实图像均经过裁剪,使其高度与宽度为8的倍数,以保障变分自编码器重建时空间分辨率精确匹配。所有图像均以无损PNG格式保存,避免因双重JPEG压缩引入额外伪影,从而有效消除格式偏差,为检测器学习生成痕迹而非压缩历史奠定基础。
特点
该数据集的核心特征在于其精心设计的对齐机制与偏差控制策略。通过双数据对齐技术,真实图像与对应的合成图像在空间与频率维度实现严格匹配,显著降低了传统检测数据集中普遍存在的格式、内容及尺寸偏差。所有图像均采用PNG格式存储,避免了因压缩历史导致的伪影干扰,确保数据纯净度。基于MSCOCO的丰富场景内容,数据集涵盖了多样化的视觉语境,为模型提供了均衡且具代表性的训练样本,有助于提升检测器在未知生成模型上的泛化性能。
使用方法
该数据集专为训练可泛化的人工智能生成图像检测模型而设计。使用者可直接加载DDA-COCO_TrainSet目录中的PNG格式图像,其中每张真实图像均配有经双数据对齐处理的合成对应物。在模型训练过程中,建议将图像对作为输入,利用其像素与频域对齐特性,引导检测器聚焦于生成痕迹而非无关偏差。数据集已预处理为高度与宽度为8倍数的尺寸,兼容常见卷积网络架构,可直接用于监督学习或对比学习框架,以优化检测器在跨模型与跨数据分布场景下的鲁棒性。
背景与挑战
背景概述
在人工智能生成图像检测领域,传统数据集常因格式、内容与尺寸偏差而制约模型泛化能力。为应对此局限,DDA-Training-Set数据集应运而生,由研究团队于2025年提出,并在NeurIPS会议上正式发布。该数据集以MSCOCO训练集为基础,采用双数据对齐技术构建,旨在通过像素域与频率域的高度对齐,消除合成图像与真实图像间的系统性偏差,从而推动AIGI检测器向更稳健、更通用的方向发展,对提升数字内容真实性鉴别的可靠性具有重要影响。
当前挑战
该数据集致力于解决AI生成图像检测中的泛化性难题,其核心挑战在于克服传统数据集中固有的格式偏差、内容偏差与尺寸偏差,确保检测器能够专注于生成痕迹而非压缩历史或无关特征。在构建过程中,研究团队面临多重技术挑战,包括实现合成图像与真实图像在空间分辨率上的精确对齐,要求高度与宽度为8的倍数;同时需严格采用PNG无损格式保存所有图像,以避免因双重JPEG压缩引入的伪影干扰,这些细致的设计旨在从数据源头提升检测模型的鲁棒性与可迁移性。
常用场景
经典使用场景
在人工智能生成图像检测领域,DDA-Training-Set数据集被广泛应用于训练具有强泛化能力的检测模型。该数据集通过双数据对齐技术,确保了真实图像与合成图像在像素和频域上的高度一致性,从而有效避免了传统数据集中存在的格式、内容和尺寸偏差。研究者通常利用该数据集构建基准模型,以评估检测算法在不同生成模型和图像处理条件下的鲁棒性,为跨域泛化研究提供了标准化的实验平台。
实际应用
在实际应用中,DDA-Training-Set为构建高可靠性的AI生成图像鉴别系统提供了关键数据支撑。基于该数据集训练的检测器可部署于社交媒体内容审核、数字证据鉴定、新闻真实性核查以及知识产权保护等多个场景。其对齐的数据特性确保了系统在面对不同来源、经过各种后处理的生成图像时,仍能保持稳定的鉴别准确率,对于维护数字信息生态的真实性与安全性具有重要价值。
衍生相关工作
围绕DDA-Training-Set,学术界已衍生出一系列专注于可泛化AIGI检测的经典研究工作。这些工作主要沿两个方向展开:一是利用该数据集的对齐特性,设计更高效的域不变特征学习架构;二是将其作为基准测试集,用于系统评估不同检测方法在克服格式与内容偏差方面的能力。相关研究不仅深化了对生成伪影本质的理解,也催生了新一代面向开放环境的通用型检测框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作