SEMI-TRUTHS

Name: SEMI-TRUTHS
Creator: 佐治亚理工学院, 斯坦福大学
Published: 2024-11-12 09:17:27
License: 暂无描述

arXiv2024-11-12 更新2024-11-14 收录

下载链接：

https://huggingface.co/datasets/semi-truths/Semi-Truths

下载链接

链接失效反馈

官方服务：

资源简介：

SEMI-TRUTHS是由佐治亚理工学院和斯坦福大学联合创建的一个大规模AI增强图像数据集，旨在评估AI生成图像检测器的鲁棒性。该数据集包含27,600张真实图像和1,472,700张AI增强图像，通过多种增强技术和扩散模型生成，每张增强图像附有标准化元数据。数据集的创建过程包括从多个语义分割数据集中提取图像，并使用LLMs进行精确的图像编辑和扰动。SEMI-TRUTHS主要应用于检测AI生成图像的鲁棒性和多样性，旨在解决AI生成图像在传播虚假信息中的潜在风险问题。

SEMI-TRUTHS is a large-scale AI-augmented image dataset jointly created by the Georgia Institute of Technology and Stanford University, which aims to evaluate the robustness of AI-generated image detectors. This dataset contains 27,600 real images and 1,472,700 AI-augmented images generated through multiple augmentation techniques and diffusion models, with standardized metadata attached to each augmented image. The dataset creation process involves extracting images from multiple semantic segmentation datasets, and performing precise image editing and perturbations using LLMs. SEMI-TRUTHS is mainly applied to test the robustness and diversity of AI-generated image detectors, and intends to address the potential risks of AI-generated images in spreading disinformation.

提供机构：

佐治亚理工学院, 斯坦福大学

创建时间：

2024-11-12

原始信息汇总

Semi Truths Dataset

概述

Semi Truths 数据集是一个大规模数据集，用于测试 AI 生成图像检测器的鲁棒性。该数据集包含 27,600 张真实图像、245,300 张掩码图像和 850,200 张 AI 增强图像，涵盖不同程度的增强和局部编辑。

任务类别

图像分类

语言

英语

数据集结构

original: 包含原始真实图像和掩码数据。
- images: 真实图像文件。
- masks: 掩码图像文件。
inpainting: 使用扩散模型生成的图像。
- 包含多个数据集（如 CityScapes、HumanParsing 等）的增强图像。
prompt-based-editing: 基于提示编辑的图像。
- 包含多个数据集（如 CityScapes、HumanParsing 等）的增强图像。
metadata_inpainting.csv: 包含基于扩散模型生成的图像的元数据。
metadata_prompt.csv: 包含基于提示编辑的图像的元数据。

元数据结构

元数据文件包含以下字段：

dataset: 原始图像来源的数据集。
model: 用于编辑图像的模型。
method: 扰动方法（inpainting/prompt-based）。
img_id: 原始图像的ID/名称。
perturbed_img_id: 扰动图像的ID/名称。
semantic magnitude: 变化的语义大小（小、中、大）。
cap2_img2: 扰动后的描述/掩码与生成图像之间的余弦相似度。
direct_sim: 扰动图像的方向相似度得分。
img1_img2: 原始图像与生成图像之间的余弦相似度。
brisque_score_orig: 原始图像的brisque得分。
brisque_score_perturb: 扰动图像的brisque得分。
pass_caption_filtering: 生成的描述/掩码标签是否通过描述过滤阶段。
pass_image_filtering: 生成的图像是否通过图像过滤阶段。
area_ratio: 原始图像在生成图像中编辑的区域比例。
scene_diversity: 原始图像的场景多样性。
scene_complexity: 原始图像的场景复杂性。

metadata_inpainting.csv 独有字段

mask_name: 原始图像中要编辑区域的掩码名称。
perturbed_label: 掩码名称在给定语义大小下的扰动结果。

metadata_prompt.csv 独有字段

original caption: 原始图像的描述。
perturbed_caption: 原始描述在给定语义大小下的扰动结果。

下载方式

可以通过以下命令克隆整个数据集： bash git clone https://huggingface.co/datasets/semi-truths/Semi-Truths

搜集汇总

数据集介绍

构建方式

SEMI-TRUTHS数据集通过整合27,600张真实图像和1,472,700张AI增强图像构建而成，这些图像通过多种增强技术、扩散模型和数据分布生成。每张增强图像都附有元数据，用于标准化和有针对性的检测器鲁棒性评估。数据集的构建采用了灵活的即插即用框架，确保了图像编辑的可重用性和适应性，能够适应新的数据分布、大型语言模型和各种图像合成技术。

使用方法

SEMI-TRUTHS数据集主要用于评估AI生成图像检测器的鲁棒性。通过提供多样化的增强图像和详细的元数据，研究人员可以测试检测器对不同增强程度、数据分布和增强方法的敏感性。数据集还提供了一个可定制的评估管道，允许社区创建自定义的压力测试，以评估特定用例下的检测器性能。

背景与挑战

背景概述

随着文本到图像生成模型的崛起，其在艺术、设计和娱乐等领域的应用日益广泛，但同时也带来了创建和传播虚假信息的重大风险。尽管近期已有声称对各种增强具有鲁棒性的AI生成图像检测器，但其真实有效性仍不确定。为了深入研究这些检测器在不同增强水平下的识别能力以及是否存在特定场景或数据分布的偏见，我们引入了SEMI-TRUTHS数据集。该数据集由27,600张真实图像、223,400个掩码和1,472,700张AI增强图像组成，这些图像通过多种增强技术、扩散模型和数据分布生成，每张增强图像都附有用于标准化和目标评估检测器鲁棒性的元数据。我们的研究结果表明，最先进的检测器对所使用的扰动类型、程度、数据分布和增强方法表现出不同的敏感性，为它们的性能和局限性提供了新的见解。

当前挑战

SEMI-TRUTHS数据集在构建过程中面临多项挑战。首先，现有的训练和评估AI生成图像检测器的数据集主要由完全合成的图像组成，通常局限于人脸图像，这未能捕捉真实世界扰动的多样性，也无法揭示模型对不同程度变化的偏见。其次，数据集的构建需要精确控制变化的自然和程度，以确保增强图像的真实性和多样性。此外，数据集的生成涉及多种扩散模型和增强技术，这增加了数据生成的复杂性和计算成本。最后，为了确保数据集的质量，需要进行多轮的质量检查和筛选，以去除低质量的增强图像和扰动。这些挑战共同构成了SEMI-TRUTHS数据集的主要研究难点。

常用场景

经典使用场景

SEMI-TRUTHS数据集的经典使用场景主要集中在评估和提升AI生成图像检测器的鲁棒性。通过提供大量经过多样化增强技术处理的AI生成图像，该数据集允许研究者测试现有检测器在面对不同程度和类型的图像扰动时的表现。具体应用包括但不限于：检测器在不同数据分布下的性能评估、针对特定场景和数据分布的偏差分析，以及通过对比不同扩散模型和增强方法的效果来优化检测器的鲁棒性。

解决学术问题

SEMI-TRUTHS数据集解决了当前AI生成图像检测器在面对多样化扰动时表现不佳的学术问题。传统的检测器主要针对完全合成的图像进行训练和评估，而SEMI-TRUTHS通过引入具有不同程度扰动的AI增强图像，揭示了现有模型在真实世界扰动下的局限性。这不仅有助于提升检测器的鲁棒性，还为研究者提供了标准化的评估平台，推动了AI生成图像检测领域的技术进步。

实际应用

在实际应用中，SEMI-TRUTHS数据集可用于开发和验证针对AI生成图像的检测工具，这些工具在社交媒体监控、新闻真实性验证以及法律取证等领域具有广泛应用。例如，社交媒体平台可以利用该数据集训练检测器，自动识别和过滤AI生成的虚假图像；新闻机构则可以使用这些工具来确保发布内容的可信度；法律部门则可以借助这些技术来识别和处理涉及AI生成图像的欺诈案件。

数据集最近研究