COCOXGEN

Name: COCOXGEN
Creator: 斯图加特媒体学院
Published: 2024-12-13 04:37:52
License: 暂无描述

arXiv2024-12-13 更新2024-12-17 收录

下载链接：

https://github.com/heikeadel/cocoxgen

下载链接

链接失效反馈

官方服务：

资源简介：

COCOXGEN是一个新颖的基准数据集，由斯图加特媒体学院创建，旨在评估假图像检测性能。该数据集包含来自COCO数据集的真实照片以及使用SDXL和Fooocus生成的AI图像，这些图像基于两种不同详细程度的提示。数据集的创建过程包括从COCO数据集中提取不同详细程度的提示，并使用这些提示生成AI图像。COCOXGEN数据集的应用领域主要集中在假图像检测，旨在解决AI生成图像的检测问题，特别是在提示详细程度对检测性能的影响方面。

COCOXGEN is a novel benchmark dataset developed by the Stuttgart Media University, designed to evaluate fake image detection performance. This dataset comprises real photographs sourced from the COCO dataset, alongside AI-generated images created using SDXL and Fooocus, which are based on prompts with two different levels of detail. The construction process of the COCOXGEN dataset involves extracting prompts with varying levels of detail from the COCO dataset, and generating AI images using these prompts. The main application domain of the COCOXGEN dataset is fake image detection, aiming to address the challenge of detecting AI-generated images, particularly regarding the impact of prompt detail levels on detection performance.

提供机构：

斯图加特媒体学院

创建时间：

2024-12-13

原始信息汇总

COCOXGEN 数据集概述

数据集简介

COCOXGEN 是一个用于评估图像伪造检测性能的基准数据集。该数据集在论文《Human vs. AI: A Novel Benchmark and a Comparative Study on the Detection of Generated Images and the Impact of Prompts》中提出。

数据集结构

COCOXGEN 数据集包含三个不同目录，分别表示相应图像的来源：

Real COCO images: 真实的 COCO 图像。由于版权原因，这些图像未包含在目录中，但可以通过提供的图像 ID 从官方 COCO 数据集中提取。
FOOCUS 生成的图像: 使用 FOOCUS 生成的图像。
SDXL 生成的图像: 使用 SDXL 生成的图像。

附加信息

prompts.json: 该文件提供了用于生成伪造图像的长短提示。这些提示不仅有助于复现性，还可以在未来用于扩展伪造图像集，使用其他文本到图像生成模型。

引用

如果使用该数据集，请引用以下论文：

@inproceedings{moessner-2024-cocoxgen, title = "Human vs. AI: A Novel Benchmark and a Comparative Study on the Detection of Generated Images and the Impact of Prompts", author = "Moe{ss}ner, Philipp and Adel, Heike", booktitle = "Proceedings of the Workshop on Detecting AI Generated Content @ COLING 2025", month = january, year = "2025", address = "Abu Dhabi, UAE" }

搜集汇总

数据集介绍

构建方式

COCOXGEN数据集的构建基于COCO数据集的真实照片，并结合了SDXL和Fooocus两种先进的AI生成模型，使用两种不同详细程度的提示（短提示和长提示）生成合成图像。具体而言，短提示由COCO数据集中的‘thing’和‘stuff’类别的最频繁元素构成，而长提示则选择与平均长度最接近的完整句子。通过这种方式，COCOXGEN数据集包含了真实照片及其对应的短提示和长提示生成的合成图像，形成了用于评估假图像检测性能的基准数据集。

使用方法

COCOXGEN数据集可用于评估假图像检测模型的性能，尤其是探讨提示的详细程度对检测结果的影响。研究者可以通过该数据集进行用户研究，比较人类与AI模型在检测假图像时的表现差异，并分析两者在决策过程中的关注点是否一致。此外，数据集还可用于训练和测试新的假图像检测模型，特别是在不同生成模型和提示详细程度下的泛化能力。

背景与挑战

背景概述

随着基于人工智能的文本到图像系统的普及，创建逼真但完全合成的图像的过程已变得相对民主化。然而，这种技术的广泛应用可能通过简化虚假信息的传播对公众构成威胁。机器检测器和人类的媒体专业知识可以帮助区分AI生成的（虚假）图像和真实图像，从而应对这一风险。尽管AI生成模型高度依赖于提示（prompt），但提示对虚假图像检测性能的影响尚未得到充分研究。因此，Philipp Moeßner和Heike Adel等研究人员创建了COCOXGEN数据集，旨在研究提示的详细程度对虚假图像检测的影响。该数据集包含来自COCO数据集的真实照片以及使用SDXL和Fooocus模型生成的图像，这些图像基于两种标准化长度的提示。通过用户研究和AI检测模型的评估，研究人员发现，使用更长、更详细提示生成的图像更容易被检测为虚假图像。

当前挑战

COCOXGEN数据集的构建面临多个挑战。首先，如何设计提示以控制生成图像的详细程度是一个关键问题。提示的详细程度不仅影响生成图像的质量，还直接影响检测模型的性能。其次，构建过程中需要确保生成的图像与真实图像在分辨率和内容上的一致性，以避免引入额外的混淆变量。此外，如何确保检测模型在不同提示条件下的鲁棒性也是一个重要挑战。尽管AI检测模型在某些条件下表现良好，但其在处理不同生成模型和提示变化时的泛化能力仍需进一步验证。最后，用户研究和AI模型的决策策略之间的差异表明，未来的研究需要探索如何结合人类和机器的优势，以提高整体检测性能。

常用场景

经典使用场景

COCOXGEN数据集的经典使用场景主要集中在AI生成图像的检测与区分上。该数据集通过结合COCO数据集的真实照片与使用不同长度提示词生成的AI图像，提供了一个标准化的基准，用于评估人类和AI模型在检测AI生成图像时的性能。通过对比不同提示词长度对生成图像的影响，研究者可以深入探讨提示词细节对图像生成质量及检测难度的影响。

解决学术问题

COCOXGEN数据集解决了AI生成图像检测中的关键学术问题，特别是在提示词细节对生成图像可检测性的影响方面。通过提供一个包含不同提示词长度的AI生成图像数据集，研究者能够系统地分析提示词的复杂性如何影响生成图像的视觉特征，进而影响检测模型的性能。这一研究不仅填补了现有文献中的空白，还为未来的AI生成图像检测研究提供了重要的基准。

实际应用

COCOXGEN数据集在实际应用中具有广泛的应用前景，特别是在对抗虚假信息传播和维护图像真实性方面。随着AI生成图像技术的普及，虚假图像的传播成为了一个严重的社会问题。COCOXGEN数据集可以用于训练和评估图像检测模型，帮助社交媒体平台、新闻机构和执法部门识别和过滤AI生成的虚假图像，从而有效遏制虚假信息的传播。

数据集最近研究