five

ImagiNet

收藏
arXiv2024-07-29 更新2024-07-31 收录
下载链接:
https://github.com/delyan-boychev/imaginet
下载链接
链接失效反馈
官方服务:
资源简介:
ImagiNet数据集由高级中学自然科学与数学学校维利科塔尔诺沃和斯坦福大学等机构创建,旨在支持合成图像检测的研究。该数据集包含20万张高分辨率图像,分为照片、绘画、人脸和未分类四个类别,涵盖了多种生成模型产生的合成图像及真实图像。数据集的创建过程包括使用不同的生成模型和从公共数据集中收集真实图像。ImagiNet主要应用于合成图像检测领域,旨在解决在线媒体平台面临的合成图像识别问题。

The ImagiNet dataset was developed by institutions such as the High School of Natural Sciences and Mathematics Veliko Tarnovo and Stanford University, aiming to support research on synthetic image detection. It contains 200,000 high-resolution images divided into four categories: photographs, paintings, human faces, and unclassified samples, covering both synthetic images generated by various generative models and real-world images. The construction of ImagiNet involved utilizing multiple generative models and collecting real images from public datasets. Primarily applied in the field of synthetic image detection, ImagiNet is designed to address the challenge of synthetic image recognition faced by online media platforms.
提供机构:
高级中学自然科学与数学学校维利科塔尔诺沃, 保加利亚; 索菲亚大学; 数学高中普罗夫迪夫, 保加利亚; 斯坦福大学
创建时间:
2024-07-29
原始信息汇总

ImagiNet 数据集概述

数据集介绍

ImagiNet 是一个用于合成图像检测的高分辨率平衡数据集,旨在减少现有资源中的潜在偏差。该数据集包含 200K 个样本,涵盖四个内容类别:照片、绘画、人脸和未分类。合成图像由开源和专有生成器生成,而真实图像则从公共数据集中收集。

数据集结构

ImagiNet 允许两种评估方式:

  1. 分类为真实或合成图像。
  2. 识别生成模型。

数据集下载

数据集可以从 Huggingface 手动下载或使用 CLI 下载。

bash huggingface-cli download delyanboychev/imaginet --repo-type dataset

解压数据集可以使用 7z 命令:

bash 7z x imaginet.7z.001 -oDIRECTORY

从源构建数据集

数据集可以从原始源构建:

  1. 安装所需依赖: bash pip install -r requirements.txt

  2. 下载所有原始数据集并放置在指定目录中。

  3. 执行以下命令提取所需图像并清理其余部分: bash python dataset_operations/delete_not_needed.py --path DIRECTORY

数据集内容

  • 合成图像生成器:包括开源和专有生成器。
  • 真实图像来源:从公共数据集中收集。

数据集使用

数据集用于训练和测试合成图像检测模型。提供了训练和测试脚本,以及模型检查点。

许可证

  • 真实图像:遵循原始许可证。
  • 合成图像
    • DALL·E 3:部分图像遵循 CC-0 许可证。
    • Midjourney:遵循 JourneyDB 许可证。
    • 其他合成图像:遵循 CC BY 4.0 许可证,允许共享、改编和商业使用,需提供适当署名。
搜集汇总
数据集介绍
main_image_url
构建方式
ImagiNet数据集的构建方式旨在解决现有合成图像检测数据集的局限性,特别是缺乏多样性和多生成器的问题。该数据集包含了由开源和专有生成器产生的合成图像,以及从公共数据集中收集的真实图像。数据集分为四个内容类别:照片、绘画、人脸和未分类。为了确保数据集的平衡性,每个子类别中的合成图像数量与真实图像数量相等。合成图像的生成使用了GAN、DM和专有生成器,如Midjourney和DALL·E。数据集的结构允许进行双轨评估系统:一是将图像分类为真实或合成,二是识别生成模型。
特点
ImagiNet数据集的特点在于其高分辨率、平衡性和多样性。数据集包含了200K个示例,涵盖了不同的内容类型和生成器,旨在减少对特定生成器的偏见。此外,数据集还包括了对图像进行JPEG压缩和重设大小的处理,以模拟社交媒体环境。这些特点使得ImagiNet成为训练通用合成图像检测模型的有力工具。
使用方法
使用ImagiNet数据集的方法包括两个主要阶段:骨干网络预训练和分类器训练。首先,使用自监督对比学习目标(SelfCon)对ResNet-50模型进行预训练。然后,将分类器连接到预训练的骨干网络上,并在平衡的数据集上使用交叉熵损失进行训练,以进行起源和模型检测。为了提高模型的鲁棒性,对骨干网络中的批归一化统计信息进行更新。此外,数据集还提供了用于图像生成和提示工程的详细信息,以及训练过程中使用的增强方法。
背景与挑战
背景概述
随着生成模型,如扩散模型、变分自编码器和生成对抗网络的不断发展,其生成的图像在真实性上已经达到了几乎难以与真实照片和艺术品区分的程度。这种技术虽然为娱乐、游戏和营销等行业带来了便利,但也给在线媒体平台带来了挑战,例如身份欺骗和虚假信息的传播。为了应对这一挑战,Delyan Boychev和Radostin Cholakov于2024年7月提出了ImagiNet数据集,这是一个用于合成图像检测的高分辨率和平衡数据集,旨在减少现有资源中的潜在偏差。该数据集包含20万个示例,涵盖四种内容类别:照片、绘画、人脸和未分类图像。合成图像由开源和专有生成器生成,而相同内容类型的真实图像则从公共数据集中收集。ImagiNet的结构允许进行双轨评估系统:一是将图像分类为真实或合成,二是识别生成模型。为了建立基准,研究人员使用一个自监督对比目标(SelfCon)对ResNet-50模型进行训练,并在每个轨道上取得了最先进的性能和高推理速度。ImagiNet数据集对相关领域产生了重要影响,为合成图像检测提供了高质量的数据基础,并通过对比学习方法提高了检测模型的泛化能力。
当前挑战
ImagiNet数据集和相关研究面临的挑战包括:1) 所解决的领域问题,即如何有效地检测和识别合成图像,以防止在线媒体平台的身份欺骗和虚假信息传播;2) 构建过程中所遇到的挑战,例如如何平衡数据集中真实和合成图像的数量,以及如何选择多样化的内容类型和生成器,以避免模型过拟合和偏差。此外,随着生成模型的不断发展,新的生成器可能会出现,这要求检测模型能够不断更新和适应新的挑战。
常用场景
经典使用场景
ImagiNet 数据集被设计用于合成图像检测,其经典使用场景包括在社交媒体平台、内容审核系统以及安全监控系统中识别和分类由生成模型如 GANs、DMs 和 VAEs 生成的图像。该数据集提供了高度真实和多样化的图像样本,涵盖了照片、绘画、人脸和未分类的内容类型,有助于训练能够准确区分真实与合成图像的模型。
衍生相关工作
ImagiNet 数据集的引入促进了合成图像检测领域的研究,衍生出许多相关工作。这些工作包括基于 ImagiNet 的模型训练方法研究,如对比学习技术,以及利用 ImagiNet 进行模型泛化能力评估的研究。此外,ImagiNet 数据集还激发了关于合成图像检测算法的研究,以及如何利用该数据集进行模型优化和性能提升的研究。
数据集最近研究
最新研究方向
ImagiNet数据集为合成图像检测提供了一个高分辨率且平衡的资源,涵盖了照片、绘画、人脸和未分类四种内容类别,并包含来自开源和专有生成器的合成图像。该数据集旨在通过对比学习方法训练出具有广泛适用性的合成图像检测模型,以应对生成模型在图像生成上的快速发展。ImagiNet数据集的引入,标志着合成图像检测领域向更全面、更准确的方向迈出了重要一步。通过提供多样化的训练数据,该数据集有助于减少检测模型对特定生成器的过度拟合,提高模型在现实网络环境下的性能。此外,ImagiNet还包含了模型识别的任务,这有助于进一步了解和区分不同生成器生成的图像。这一研究方向对于防止网络上的虚假信息和欺诈行为具有重要意义,并有望推动合成图像检测技术在社交媒体平台和内容分发平台上的应用。
相关研究论文
  • 1
    ImagiNet: A Multi-Content Dataset for Generalizable Synthetic Image Detection via Contrastive Learning高级中学自然科学与数学学校维利科塔尔诺沃, 保加利亚; 索菲亚大学; 数学高中普罗夫迪夫, 保加利亚; 斯坦福大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作