five

CIFAR-10, GTSRB

收藏
github2024-02-26 更新2024-05-31 收录
下载链接:
https://github.com/THUYimingLi/Open-sourced_Dataset_Protection
下载链接
链接失效反馈
官方服务:
资源简介:
CIFAR-10是一个包含10个类别的图像数据集,用于训练和测试机器学习模型。GTSRB是一个交通标志识别数据集,用于训练和测试交通标志识别模型。

CIFAR-10 is an image dataset with 10 classes, used for training and testing machine learning models. GTSRB is a traffic sign recognition dataset for training and testing traffic sign recognition models.
创建时间:
2020-11-15
原始信息汇总

数据集实验

CIFAR-10 数据集

所有相关代码包含在 "CIFAR" 子文件夹中。请在运行代码前切换到该文件夹。

标准训练

  • ResNets(-18) bash python train_standard.py --gpu-id 0 --checkpoint checkpoint/benign

  • VGG(-19) bash python train_standard_vgg.py --gpu-id 0 --checkpoint checkpoint/benign_vgg

使用水印数据集训练

ResNets(-18)

  • 触发器为白色 3*3 方块,位于图像右下角,透明度 = 1(中毒率设置为 0.1) bash python train_watermarked.py --gpu-id 0 --poison-rate 0.1 --checkpoint checkpoint/infected/square_1_01 --trigger ./Trigger_default1.png --alpha ./Alpha_default1.png

  • 触发器为 3 像素宽的黑色水平线,位于图像上方,透明度 = 1(中毒率设置为 0.1) bash python train_watermarked.py --gpu-id 0 --poison-rate 0.1 --checkpoint checkpoint/infected/line_1_01 --trigger ./Trigger_default2.png --alpha ./Alpha_default2.png

VGG(-19)

  • 触发器为白色 3*3 方块,位于图像右下角,透明度 = 1(中毒率设置为 0.1) bash python train_watermarked_vgg.py --gpu-id 0 --poison-rate 0.1 --checkpoint checkpoint/infected_vgg/square_1_01 --trigger ./Trigger_default1.png --alpha ./Alpha_default1.png

  • 触发器为 3 像素宽的黑色水平线,位于图像上方,透明度 = 1(中毒率设置为 0.1) bash python train_watermarked_vgg.py --gpu-id 0 --poison-rate 0.1 --checkpoint checkpoint/infected_vgg/line_1_01 --trigger ./Trigger_default2.png --alpha ./Alpha_default2.png

数据集验证使用成对 T 检验

以下是使用触发器1、alpha1、margin=0.2 在 ResNets 结构下验证的示例: bash python test_cifar.py --gpu-id 0 --model resnet --trigger ./Trigger_default1.png --alpha ./Alpha_default1.png --margin 0.2 --model-path ./checkpoint/infected/line_1_01/checkpoint.pth.tar

GTSRB 数据集

所有相关代码包含在 "GTSRB" 子文件夹中。请在运行代码前切换到该文件夹并下载数据集。

标准训练

  • ResNets(-18) bash python train_standard.py --gpu-id 0 --checkpoint checkpoint/benign_resnet

  • VGG(-19) bash python train_standard_vgg.py --gpu-id 0 --checkpoint checkpoint/benign_vgg

使用水印数据集训练

ResNets(-18)

  • 触发器为白色 3*3 方块,位于图像右下角,透明度 = 1(中毒率设置为 0.1) bash python train_watermarked.py --gpu-id 0 --poison-rate 0.1 --checkpoint checkpoint/infected/square_1_01 --trigger ./Trigger_default1.png --alpha ./Alpha_default1.png

  • 触发器为 3 像素宽的黑色水平线,位于图像上方,透明度 = 1(中毒率设置为 0.1) bash python train_watermarked.py --gpu-id 0 --poison-rate 0.1 --checkpoint checkpoint/infected/line_1_01 --trigger ./Trigger_default2.png --alpha ./Alpha_default2.png

VGG(-19)

  • 触发器为白色 3*3 方块,位于图像右下角,透明度 = 1(中毒率设置为 0.1) bash python train_watermarked_vgg.py --gpu-id 0 --poison-rate 0.1 --checkpoint checkpoint/infected_vgg/square_1_01 --trigger ./Trigger_default1.png --alpha ./Alpha_default1.png

  • 触发器为 3 像素宽的黑色水平线,位于图像上方,透明度 = 1(中毒率设置为 0.1) bash python train_watermarked_vgg.py --gpu-id 0 --poison-rate 0.1 --checkpoint checkpoint/infected_vgg/line_1_01 --trigger ./Trigger_default2.png --alpha ./Alpha_default2.png

数据集验证使用成对 T 检验

以下是使用触发器1、alpha1、margin=0.2 在 ResNets 结构下验证的示例: bash python test_gtsrb.py --gpu-id 0 --model resnet --trigger ./Trigger_default1.png --alpha ./Alpha_default1.png --margin 0.2 --model-path ./checkpoint/infected/line_1_01/checkpoint.pth.tar

搜集汇总
数据集介绍
main_image_url
构建方式
CIFAR-10和GTSRB数据集的构建基于Python 3.6环境,旨在通过后门水印技术保护开源数据集。研究团队在CIFAR-10和GTSRB数据集上进行了标准训练和水印训练的实验。标准训练使用了ResNet-18和VGG-19模型,而水印训练则通过在图像上添加特定触发器(如白色3*3方块或3像素宽的黑线)来实现。这些触发器的透明度设置为1,且投毒率为0.1。数据集的验证则通过成对T检验进行,以确保水印的有效性。
特点
CIFAR-10和GTSRB数据集的特点在于其通过后门水印技术实现了数据集的保护。水印训练通过在图像中嵌入特定触发器,使得模型在训练过程中能够识别并响应这些触发器。这种技术不仅能够保护数据集免受未经授权的使用,还能在模型训练过程中提供额外的安全性。此外,数据集的验证过程通过成对T检验进行,确保了水印的可靠性和有效性。
使用方法
使用CIFAR-10和GTSRB数据集时,首先需要安装所需的Python依赖库。对于CIFAR-10数据集,用户可以在‘CIFAR’子文件夹中找到相关代码,并通过命令行运行标准训练或水印训练。对于GTSRB数据集,用户需先下载数据集,并在‘GTSRB’子文件夹中运行相应的训练代码。数据集的验证过程通过成对T检验进行,用户可以通过指定触发器、透明度和模型路径等参数来验证水印的有效性。
背景与挑战
背景概述
CIFAR-10和GTSRB数据集在计算机视觉领域具有重要地位,分别用于图像分类和交通标志识别任务。CIFAR-10数据集由Alex Krizhevsky、Vinod Nair和Geoffrey Hinton于2009年发布,包含10类共60000张32x32彩色图像。GTSRB数据集则专注于德国交通标志识别,广泛应用于自动驾驶和交通监控系统。2020年,Yiming Li和Ziqi Zhang等研究人员在NeurIPS Workshop上发表了关于数据集保护的研究,提出了基于后门水印的开源数据集保护方法,旨在解决数据集在开放共享中的版权和安全问题。这一研究为数据集的安全使用提供了新的技术路径,对数据集的版权保护和模型安全性具有重要意义。
当前挑战
CIFAR-10和GTSRB数据集在应用过程中面临多重挑战。首先,数据集保护问题日益突出,如何在开放共享环境中确保数据集的版权和安全性成为亟待解决的难题。Yiming Li等人提出的后门水印技术虽然为数据集保护提供了新思路,但其在实际应用中的鲁棒性和通用性仍需进一步验证。其次,数据集的构建和标注过程复杂且耗时,尤其是GTSRB数据集需要精确的交通标志识别和分类,这对数据质量和标注准确性提出了更高要求。此外,模型训练过程中如何平衡数据保护与模型性能也是一个重要挑战,水印的引入可能对模型的泛化能力产生潜在影响。这些挑战不仅涉及技术层面的创新,还需要在数据安全和模型性能之间找到最佳平衡点。
常用场景
经典使用场景
CIFAR-10和GTSRB数据集在深度学习和计算机视觉领域中被广泛用于图像分类任务。CIFAR-10包含10类60000张32x32的彩色图像,GTSRB则专注于交通标志识别,包含43类超过50000张图像。这些数据集常被用于训练和评估卷积神经网络(CNN)模型,如ResNet和VGG,以验证模型在图像识别任务中的性能。
衍生相关工作
基于CIFAR-10和GTSRB数据集,研究者们开发了许多经典的深度学习模型和算法。例如,ResNet和VGG模型在这些数据集上进行了广泛的训练和测试,推动了深度学习在图像分类任务中的发展。此外,数据集保护技术的研究也取得了显著进展,如后门水印技术的提出,为数据集的安全性和版权保护提供了新的思路和方法。
数据集最近研究
最新研究方向
在深度学习和计算机视觉领域,CIFAR-10和GTSRB数据集的最新研究方向聚焦于数据集保护与安全。通过后门水印技术,研究者们在数据集中嵌入特定的触发模式,以验证数据集的合法性和防止未经授权的使用。这一技术在NeurIPS Workshop on Dataset Curation and Security 2020上得到了展示,并引发了广泛关注。通过ResNets和VGG等经典网络架构的实验,研究团队验证了不同触发模式的有效性,并提出了基于成对T检验的数据集验证方法。这一研究不仅为数据集的安全保护提供了新的技术手段,也为未来数据集的开放共享与合法使用奠定了重要基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作