EvalGEN

Hugging Face2025-12-15 更新2025-12-16 收录

下载链接：

https://huggingface.co/datasets/Junwei-Xi/EvalGEN

下载链接

链接失效反馈

官方服务：

资源简介：

EvalGEN是一个具有挑战性、面向未来的人工智能生成图像（AIGI）检测基准，旨在测试检测器对2024-2025年最新生成模型和异构架构（如自回归模型）的泛化能力。与传统仅基于Stable Diffusion或GANs的基准不同，EvalGEN引入了最新的自回归生成器和多模态大模型，涵盖高分辨率、强语义推理和统一生成框架。数据集包含553个来自GenEval基准的对齐提示，总计约55,300张图像（每个生成器11,060张图像），涵盖五种最新模型：Flux（具有卓越图像质量的SOTA级扩散模型）、GoT（结合LLM推理与扩散过程的多模态模型）、Infinity（基于位级自回归建模的高分辨率生成模型）、OmniGen（统一的多模态生成框架）和NOVA（平衡高保真与效率的非量化自回归模型）。所有图像统一为JPEG格式（质量因子96），以模拟真实网络环境。

创建时间：

2025-12-09

原始信息汇总

EvalGEN Benchmark 数据集概述

数据集基本信息

数据集名称： EvalGEN Benchmark
官方用途：为论文《Dual Data Alignment Makes AI-Generated Image Detector Easier Generalizable》提供官方数据集。
相关会议：第39届神经信息处理系统大会 (NeurIPS 2025)。
论文链接： https://arxiv.org/abs/2505.14359
许可证： apache-2.0

数据集描述

EvalGEN 是一个具有挑战性、面向未来的人工智能生成图像检测基准，旨在测试检测器针对2024-2025年最新生成模型和异构架构的泛化能力。与传统仅基于Stable Diffusion或GANs的基准不同，EvalGEN引入了最新的自回归生成器和多模态大模型，涵盖了高分辨率、强语义推理和统一生成框架。

数据集详情

提示词来源： 553个来自GenEval Benchmark的对齐提示词。
总规模：约55,300张图像（每个生成器11,060张图像）。
包含的生成器（5个最新模型）：
1. Flux：具有卓越图像质量的SOTA级扩散模型。
2. GoT (Generative of Things)：结合LLM推理与扩散过程的多模态模型。
3. Infinity：基于比特级自回归建模的高分辨率生成模型。
4. OmniGen：统一的多模态生成框架。
5. NOVA：平衡高保真度与效率的非量化自回归模型。
格式：统一为JPEG格式（质量因子96），以模拟真实网络环境。

引用信息

bibtex @inproceedings{chen2025dual, title={Dual Data Alignment Makes {AI}-Generated Image Detector Easier Generalizable}, author={Ruoxin Chen and Junwei Xi and Zhiyuan Yan and Ke-Yue Zhang and Shuang Wu and Jingyi Xie and Xu Chen and Lei Xu and Isabel Guan and Taiping Yao and Shouhong Ding}, booktitle={The Thirty-ninth Annual Conference on Neural Information Processing Systems}, year={2025}, url={https://openreview.net/forum?id=C39ShJwtD5} }

搜集汇总

数据集介绍

构建方式

在人工智能生成图像检测领域，EvalGEN数据集的构建体现了前瞻性设计理念。该数据集以GenEval Benchmark中的553个对齐提示词为基础，系统性地采集了来自五种前沿生成模型的图像，每种模型贡献约11060张样本，总计形成约55300张图像的统一集合。所有图像均经过标准化处理，统一转换为质量因子为96的JPEG格式，以模拟真实网络环境中的图像分布特征。

特点

EvalGEN的核心特征在于其面向未来的挑战性架构。该数据集突破了传统基准对Stable Diffusion或GANs的依赖，纳入了2024至2025年间最新发布的生成模型，特别是引入了自回归架构与多模态大模型。这些模型涵盖了高分辨率生成、强语义推理与统一生成框架等多元技术路线，为检测器提供了异构且复杂的评估场景，有效检验模型在未知生成技术下的泛化能力。

使用方法

作为NeurIPS 2025会议相关研究的官方基准，EvalGEN主要用于评估AI生成图像检测器的跨模型泛化性能。研究者可将训练好的检测模型在此数据集上进行测试，通过分析模型在Flux、GoT、Infinity、OmniGen及NOVA等不同生成器输出上的表现，系统评估其面对新兴生成技术时的鲁棒性与适应性。数据集的标准格式便于直接加载与对比实验，为推进检测技术的通用性研究提供关键支撑。

背景与挑战

背景概述

随着人工智能生成图像技术的迅猛发展，其逼真度与多样性不断提升，对数字内容真实性的鉴别构成了严峻挑战。EvalGEN基准数据集应运而生，由研究人员于2025年提出，并在神经信息处理系统大会（NeurIPS 2025）上正式发布。该数据集旨在评估检测器对2024至2025年间最新生成模型及异构架构的泛化能力，核心研究问题聚焦于如何使AI生成图像检测器在面对快速演进且多样化的生成技术时保持鲁棒性。通过整合包括自回归模型在内的前沿生成器，EvalGEN为相关领域提供了未来导向的评估标准，推动了检测技术向更通用、更稳健的方向发展。

当前挑战

在AI生成图像检测领域，核心挑战在于检测器需应对生成模型技术的快速迭代与架构异构性，传统基准往往局限于稳定扩散或生成对抗网络，难以覆盖新兴的自回归及多模态大模型所产生的高分辨率、强语义推理图像。EvalGEN构建过程中，挑战体现在需系统集成如Flux、GoT等五种最新且架构各异的生成模型，确保图像质量与格式统一以模拟真实网络环境，同时基于GenEval基准的提示词进行对齐，以构建规模约5.53万张图像的多样化数据集，从而全面测试检测器的泛化性能。

常用场景

经典使用场景

在人工智能生成图像检测领域，EvalGEN数据集作为一项前沿基准，主要用于评估检测模型在面对最新生成式模型时的泛化能力。该数据集整合了2024至2025年间涌现的多种异构生成架构，如自回归模型和多模态大模型，为研究者提供了一个模拟未来生成技术演进的测试平台。通过涵盖高分辨率图像、强语义推理及统一生成框架，EvalGEN能够全面检验检测器在复杂、多样化生成模式下的鲁棒性，成为推动AIGI检测技术发展的关键工具。

解决学术问题

EvalGEN数据集旨在解决传统AIGI检测基准因依赖单一生成模型（如Stable Diffusion或GANs）而导致的泛化不足问题。它通过引入最新的自回归生成器和多模态模型，如Flux、GoT、Infinity等，构建了一个异构且前瞻性的评估环境，从而帮助学术界深入探究检测模型在跨架构、跨技术范式下的适应机制。这一数据集不仅促进了检测算法在未知生成模式上的性能提升，还为理解生成与检测之间的动态博弈提供了实证基础，对推动领域向更通用、更稳健的方向发展具有深远意义。

衍生相关工作

围绕EvalGEN数据集，已衍生出一系列专注于提升检测器泛化能力的研究工作。例如，其关联论文《Dual Data Alignment Makes AI-Generated Image Detector Easier Generalizable》提出了双数据对齐方法，以增强模型对异构生成源的适应力。此外，该数据集也激励了针对自回归模型、多模态生成等特定架构的检测算法创新，推动了跨模型迁移学习、对抗性鲁棒性等子方向的发展。这些工作共同丰富了AIGI检测的理论与实践，为后续构建更通用、更高效的检测框架奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集