five

EvalGEN

收藏
Hugging Face2025-12-15 更新2025-12-16 收录
下载链接:
https://huggingface.co/datasets/Junwei-Xi/EvalGEN
下载链接
链接失效反馈
官方服务:
资源简介:
EvalGEN是一个具有挑战性、面向未来的人工智能生成图像(AIGI)检测基准,旨在测试检测器对2024-2025年最新生成模型和异构架构(如自回归模型)的泛化能力。与传统仅基于Stable Diffusion或GANs的基准不同,EvalGEN引入了最新的自回归生成器和多模态大模型,涵盖高分辨率、强语义推理和统一生成框架。数据集包含553个来自GenEval基准的对齐提示,总计约55,300张图像(每个生成器11,060张图像),涵盖五种最新模型:Flux(具有卓越图像质量的SOTA级扩散模型)、GoT(结合LLM推理与扩散过程的多模态模型)、Infinity(基于位级自回归建模的高分辨率生成模型)、OmniGen(统一的多模态生成框架)和NOVA(平衡高保真与效率的非量化自回归模型)。所有图像统一为JPEG格式(质量因子96),以模拟真实网络环境。
创建时间:
2025-12-09
原始信息汇总

EvalGEN Benchmark 数据集概述

数据集基本信息

  • 数据集名称: EvalGEN Benchmark
  • 官方用途: 为论文《Dual Data Alignment Makes AI-Generated Image Detector Easier Generalizable》提供官方数据集。
  • 相关会议: 第39届神经信息处理系统大会 (NeurIPS 2025)。
  • 论文链接: https://arxiv.org/abs/2505.14359
  • 许可证: apache-2.0

数据集描述

EvalGEN 是一个具有挑战性、面向未来的人工智能生成图像检测基准,旨在测试检测器针对2024-2025年最新生成模型异构架构的泛化能力。与传统仅基于Stable Diffusion或GANs的基准不同,EvalGEN引入了最新的自回归生成器和多模态大模型,涵盖了高分辨率、强语义推理和统一生成框架。

数据集详情

  • 提示词来源: 553个来自GenEval Benchmark的对齐提示词。
  • 总规模: 约55,300张图像(每个生成器11,060张图像)。
  • 包含的生成器(5个最新模型)
    1. Flux: 具有卓越图像质量的SOTA级扩散模型。
    2. GoT (Generative of Things): 结合LLM推理与扩散过程的多模态模型。
    3. Infinity: 基于比特级自回归建模的高分辨率生成模型。
    4. OmniGen: 统一的多模态生成框架。
    5. NOVA: 平衡高保真度与效率的非量化自回归模型。
  • 格式: 统一为JPEG格式(质量因子96),以模拟真实网络环境。

引用信息

bibtex @inproceedings{chen2025dual, title={Dual Data Alignment Makes {AI}-Generated Image Detector Easier Generalizable}, author={Ruoxin Chen and Junwei Xi and Zhiyuan Yan and Ke-Yue Zhang and Shuang Wu and Jingyi Xie and Xu Chen and Lei Xu and Isabel Guan and Taiping Yao and Shouhong Ding}, booktitle={The Thirty-ninth Annual Conference on Neural Information Processing Systems}, year={2025}, url={https://openreview.net/forum?id=C39ShJwtD5} }

搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能生成图像检测领域,EvalGEN数据集的构建体现了前瞻性设计理念。该数据集以GenEval Benchmark中的553个对齐提示词为基础,系统性地采集了来自五种前沿生成模型的图像,每种模型贡献约11060张样本,总计形成约55300张图像的统一集合。所有图像均经过标准化处理,统一转换为质量因子为96的JPEG格式,以模拟真实网络环境中的图像分布特征。
特点
EvalGEN的核心特征在于其面向未来的挑战性架构。该数据集突破了传统基准对Stable Diffusion或GANs的依赖,纳入了2024至2025年间最新发布的生成模型,特别是引入了自回归架构与多模态大模型。这些模型涵盖了高分辨率生成、强语义推理与统一生成框架等多元技术路线,为检测器提供了异构且复杂的评估场景,有效检验模型在未知生成技术下的泛化能力。
使用方法
作为NeurIPS 2025会议相关研究的官方基准,EvalGEN主要用于评估AI生成图像检测器的跨模型泛化性能。研究者可将训练好的检测模型在此数据集上进行测试,通过分析模型在Flux、GoT、Infinity、OmniGen及NOVA等不同生成器输出上的表现,系统评估其面对新兴生成技术时的鲁棒性与适应性。数据集的标准格式便于直接加载与对比实验,为推进检测技术的通用性研究提供关键支撑。
背景与挑战
背景概述
随着人工智能生成图像技术的迅猛发展,其逼真度与多样性不断提升,对数字内容真实性的鉴别构成了严峻挑战。EvalGEN基准数据集应运而生,由研究人员于2025年提出,并在神经信息处理系统大会(NeurIPS 2025)上正式发布。该数据集旨在评估检测器对2024至2025年间最新生成模型及异构架构的泛化能力,核心研究问题聚焦于如何使AI生成图像检测器在面对快速演进且多样化的生成技术时保持鲁棒性。通过整合包括自回归模型在内的前沿生成器,EvalGEN为相关领域提供了未来导向的评估标准,推动了检测技术向更通用、更稳健的方向发展。
当前挑战
在AI生成图像检测领域,核心挑战在于检测器需应对生成模型技术的快速迭代与架构异构性,传统基准往往局限于稳定扩散或生成对抗网络,难以覆盖新兴的自回归及多模态大模型所产生的高分辨率、强语义推理图像。EvalGEN构建过程中,挑战体现在需系统集成如Flux、GoT等五种最新且架构各异的生成模型,确保图像质量与格式统一以模拟真实网络环境,同时基于GenEval基准的提示词进行对齐,以构建规模约5.53万张图像的多样化数据集,从而全面测试检测器的泛化性能。
常用场景
经典使用场景
在人工智能生成图像检测领域,EvalGEN数据集作为一项前沿基准,主要用于评估检测模型在面对最新生成式模型时的泛化能力。该数据集整合了2024至2025年间涌现的多种异构生成架构,如自回归模型和多模态大模型,为研究者提供了一个模拟未来生成技术演进的测试平台。通过涵盖高分辨率图像、强语义推理及统一生成框架,EvalGEN能够全面检验检测器在复杂、多样化生成模式下的鲁棒性,成为推动AIGI检测技术发展的关键工具。
解决学术问题
EvalGEN数据集旨在解决传统AIGI检测基准因依赖单一生成模型(如Stable Diffusion或GANs)而导致的泛化不足问题。它通过引入最新的自回归生成器和多模态模型,如Flux、GoT、Infinity等,构建了一个异构且前瞻性的评估环境,从而帮助学术界深入探究检测模型在跨架构、跨技术范式下的适应机制。这一数据集不仅促进了检测算法在未知生成模式上的性能提升,还为理解生成与检测之间的动态博弈提供了实证基础,对推动领域向更通用、更稳健的方向发展具有深远意义。
衍生相关工作
围绕EvalGEN数据集,已衍生出一系列专注于提升检测器泛化能力的研究工作。例如,其关联论文《Dual Data Alignment Makes AI-Generated Image Detector Easier Generalizable》提出了双数据对齐方法,以增强模型对异构生成源的适应力。此外,该数据集也激励了针对自回归模型、多模态生成等特定架构的检测算法创新,推动了跨模型迁移学习、对抗性鲁棒性等子方向的发展。这些工作共同丰富了AIGI检测的理论与实践,为后续构建更通用、更高效的检测框架奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作