yanbax/CIFAKE_autotrain_compatible

Name: yanbax/CIFAKE_autotrain_compatible
Creator: yanbax
Published: 2023-05-19 19:57:01
License: 暂无描述

Hugging Face2023-05-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/yanbax/CIFAKE_autotrain_compatible

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit task_categories: - image-classification size_categories: - 10K<n<100K --- # Dataset Card for CIFAKE_autotrain_compatible ## Dataset Description - **Homepage:** [Kaggle data card](https://www.kaggle.com/datasets/birdy654/cifake-real-and-ai-generated-synthetic-images?resource=download) - **Paper:** Krizhevsky, A., & Hinton, G. (2009). Learning multiple layers of features from tiny images. ### Dataset Summary This is a copy of the CIFAKE dataset created by Dr Jordan J. Bird and Professor Ahmad Lotfi. See more information on the original data card on [Kaggle](https://www.kaggle.com/datasets/birdy654/cifake-real-and-ai-generated-synthetic-images?resource=download). The real images used are from CIFAR-10. The fake images were created by the authors using Stable Diffusion v1.4. This dataset removes the train/test structures in the original dataset to allow compatibility with HuggingFace's AutoTrain. It removes the test split images from the original dataset in both categories. All training images remain. ## Dataset Structure ### Data Fields Contains 100k total images per splits below. ### Data Splits Real: 50k real images Fake: 50k AI generated images ## Additional Information ### Dataset Curators Dr Jordan J. Bird Professor Ahmad Lotfi ### Licensing Information This dataset is published under the [same MIT license as CIFAR-10](https://github.com/wichtounet/cifar-10/blob/master/LICENSE): Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions: The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software. THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. ### Citation Information If you use this dataset, you must cite the following sources: [Krizhevsky, A., & Hinton, G. (2009). Learning multiple layers of features from tiny images.](https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdfl) [Bird, J.J., Lotfi, A. (2023). CIFAKE: Image Classification and Explainable Identification of AI-Generated Synthetic Images. arXiv preprint arXiv:2303.14126.](https://arxiv.org/abs/2303.14126) Real images are from Krizhevsky & Hinton (2009), fake images are from Bird & Lotfi (2023). The Bird & Lotfi study is a preprint currently available on ArXiv and this description will be updated when the paper is published.

--- license: MIT许可证 task_categories: - 图像分类 size_categories: - 10K < n < 100K --- # 适配AutoTrain的CIFAKE数据集卡片 ## 数据集说明 - **项目主页：** [Kaggle数据集卡片](https://www.kaggle.com/datasets/birdy654/cifake-real-and-ai-generated-synthetic-images?resource=download) - **相关论文：** Krizhevsky, A., & Hinton, G. (2009). 从微小图像中学习多层特征 ### 数据集概述本数据集为Jordan J. Bird博士与Ahmad Lotfi教授创建的CIFAKE数据集的复刻版本，更多详细信息可查阅原Kaggle数据集卡片（[链接](https://www.kaggle.com/datasets/birdy654/cifake-real-and-ai-generated-synthetic-images?resource=download)）。数据集内的真实图像源自CIFAR-10，虚假图像则由原作者使用Stable Diffusion v1.4生成。本数据集移除了原始数据集的训练/测试集划分结构，以适配HuggingFace的AutoTrain工具；同时移除了原始数据集中两类样本的测试集拆分图像，保留全部训练集图像。 ## 数据集结构 ### 数据字段下述拆分方式下，总计包含100,000张图像。 ### 数据拆分真实样本：50,000张真实图像虚假样本：50,000张AI生成图像 ## 附加信息 ### 数据集维护者 Jordan J. Bird博士 Ahmad Lotfi教授 ### 许可证信息本数据集采用与CIFAR-10一致的MIT许可证（详见[链接](https://github.com/wichtounet/cifar-10/blob/master/LICENSE)）：特此免费授予任何获得本软件及相关文档文件（以下简称"软件"）副本的人以不受限制地使用本软件的权利，包括但不限于使用、复制、修改、合并、发布、分发、再许可及/或出售本软件副本的权利，并允许向其提供本软件的人员遵循下述条件：上述版权声明与本许可声明应包含在本软件的所有副本或实质部分中。本软件按"原样"提供，不附带任何明示或默示的担保，包括但不限于适销性、特定用途适用性及非侵权的担保。在任何情况下，作者或版权持有人均不对因本软件或本软件的使用或其他交易产生的任何索赔、损害赔偿或其他责任负责，无论该责任产生于合同、侵权或其他事由。 ### 引用信息若使用本数据集，请引用下述文献： [Krizhevsky, A., & Hinton, G. (2009). 从微小图像中学习多层特征](https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdfl) [Bird, J.J., Lotfi, A. (2023). CIFAKE：AI生成合成图像的分类与可解释识别. arXiv预印本arXiv:2303.14126](https://arxiv.org/abs/2303.14126) 本数据集的真实图像源自Krizhevsky与Hinton（2009）的研究，虚假图像源自Bird与Lotfi（2023）的工作。Bird与Lotfi的研究目前为ArXiv预印本，本数据集说明将在论文正式发表后更新。

提供机构：

yanbax

原始信息汇总

数据集概述

数据集名称

CIFAKE_autotrain_compatible

数据集描述

数据集总结

来源：由Dr Jordan J. Bird和Professor Ahmad Lotfi创建的CIFAKE数据集的副本。
真实图像来源：CIFAR-10。
假图像来源：使用Stable Diffusion v1.4生成。
修改：移除了原数据集的训练/测试结构，以兼容HuggingFace的AutoTrain。

数据集结构

图像总数：100,000张。
数据分割：
- 真实图像：50,000张。
- AI生成图像：50,000张。

附加信息

数据集创建者

Dr Jordan J. Bird
Professor Ahmad Lotfi

许可证信息

许可证：MIT
详细信息：与CIFAR-10相同的MIT许可证。

引用信息

真实图像引用：Krizhevsky, A., & Hinton, G. (2009). Learning multiple layers of features from tiny images.
假图像引用：Bird, J.J., Lotfi, A. (2023). CIFAKE: Image Classification and Explainable Identification of AI-Generated Synthetic Images. arXiv preprint arXiv:2303.14126.

搜集汇总

数据集介绍

构建方式

在计算机视觉与人工智能生成内容检测的交叉领域，CIFAKE_autotrain_compatible数据集应运而生。该数据集由Dr Jordan J. Bird与Professor Ahmad Lotfi构建，其核心方法在于巧妙融合了经典图像数据与前沿生成技术。具体而言，其实图像部分直接源自著名的CIFAR-10数据集，该数据集包含十万张32x32像素的彩色图像，涵盖十个类别。而对应的伪造图像则通过Stable Diffusion v1.4模型生成，旨在模拟真实图像的视觉特征。为适配HuggingFace AutoTrain框架，本版本移除了原始数据集中的测试集划分，仅保留了全部训练图像，从而形成一个包含十万张图像（真实与伪造各五万张）的扁平化结构，便于直接用于模型训练与评估。

使用方法

在深度学习和图像分类任务中，该数据集为研究者提供了便捷的应用途径。用户可直接通过HuggingFace平台加载该数据集，利用其兼容AutoTrain的特性，快速构建和微调图像二分类模型，核心任务是区分图像源自真实拍摄还是AI生成。由于数据集已预处理为扁平结构，无需额外处理原始分割，可直接投入训练流程。典型应用场景包括开发与评估图像伪造检测算法、研究生成模型输出特征、以及探索可解释人工智能在内容鉴别领域的应用。使用时应遵循相关许可协议，并正确引用CIFAR-10及CIFAKE原始研究文献，以确保学术规范性。

背景与挑战

背景概述

在人工智能生成内容技术迅猛发展的背景下，深度伪造与合成图像的检测已成为计算机视觉领域的前沿课题。CIFAKE数据集由Dr Jordan J. Bird和Professor Ahmad Lotfi于2023年构建，其核心研究问题聚焦于区分真实图像与AI生成的合成图像。该数据集以经典的CIFAR-10图像作为真实样本，并利用Stable Diffusion v1.4模型生成对应的伪造图像，旨在为图像真实性鉴别与可解释性分析提供基准数据。这一资源的出现，显著推动了生成模型安全性与数字内容可信度评估的研究进程，为后续的模型鲁棒性测试与检测算法开发奠定了实证基础。

当前挑战

CIFAKE数据集致力于解决图像分类领域中一个新兴且紧迫的挑战：即精准识别由先进生成模型合成的虚假图像。这要求模型不仅具备高精度的分类能力，还需理解合成图像与自然图像在纹理、语义一致性等细微层面的差异。在构建过程中，研究人员面临双重挑战：一方面需确保生成图像的质量与多样性，以模拟真实世界中的复杂伪造场景；另一方面，原始数据集的划分结构需调整以适配自动化训练流程，这涉及对数据分割的重新设计，以保持类别平衡并兼容现代机器学习框架，同时维持数据集的科学严谨性与实用性。

常用场景

经典使用场景

在计算机视觉与人工智能生成内容检测领域，CIFAKE数据集为研究者提供了一个标准化的基准平台。该数据集巧妙融合了经典的CIFAR-10真实图像与通过Stable Diffusion生成的合成图像，构建了一个平衡的二分类任务环境。其核心应用场景在于训练和评估深度神经网络模型，特别是卷积神经网络，以区分真实摄影图像与人工智能生成的仿制品。这种二元对立的架构使得模型能够专注于学习两类图像在纹理、边缘一致性及语义连贯性上的细微差异，为图像真伪鉴别研究奠定了数据基础。

解决学术问题

CIFAKE数据集直接回应了深度伪造与合成媒体泛滥带来的学术挑战。它系统性地解决了生成模型输出检测中缺乏标准化、大规模基准数据的问题。通过提供清晰标注的真实与AI生成图像对，该数据集助力于探索神经网络的可解释性，例如通过梯度加权类激活映射等技术揭示模型决策依据。其意义在于推动了数字媒体取证领域从启发式方法向数据驱动范式的转变，为建立鲁棒、通用的合成图像检测器提供了不可或缺的实验土壤。

实际应用

超越纯学术探索，CIFAKE数据集在多个现实场景中展现出重要价值。在社交媒体内容审核系统中，基于该数据集训练的模型可自动识别并标记潜在的AI生成虚假信息，维护网络信息生态的真实性。于数字版权保护和司法取证领域，它能辅助鉴别数字证据的真伪，对抗深度伪造技术带来的欺诈与诽谤风险。此外，在艺术创作与设计行业，该技术亦可用于识别完全由AI生成的作品，为人类创作与机器生产的界定提供技术参考。

数据集最近研究