poison

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/cat-claws/poison

下载链接

链接失效反馈

官方服务：

资源简介：

CIFAR-10数据集是一个包含60000张32x32彩色图像的数据集，分为10个类，每个类有6000张图像。这些图像被均匀地分为飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车等类别。数据集分为训练集和测试集，训练集包含50000张图像，测试集包含10000张图像。此外，还有多个变体，包括具有不同特性的图像，如难以学习的图像和对抗性推动的图像。

创建时间：

2025-04-27

原始信息汇总

数据集概述

基本信息

数据集名称: poison
数据集地址: https://huggingface.co/datasets/cat-claws/poison

数据集配置

配置1: cifar10

特征:
- image: 图像类型
- label: 类别标签，包含10个类别:
  - 0: airplane
  - 1: automobile
  - 2: bird
  - 3: cat
  - 4: deer
  - 5: dog
  - 6: frog
  - 7: horse
  - 8: ship
  - 9: truck
数据分割:
- train: 50,000个样本，大小113,648,310字节
- test: 10,000个样本，大小22,731,580字节
下载大小: 141,097,325字节
数据集大小: 136,379,890字节

配置2: cifar10-16-huang2021unlearnable

特征:
- image: 图像类型
- label: 类别标签，与cifar10相同
数据分割:
- train: 50,000个样本，大小118,064,034字节
下载大小: 122,316,082字节
数据集大小: 118,064,034字节

配置3: cifar10-16-wen2023adversarial-push

特征:
- image: 图像类型
- label: 类别标签，与cifar10相同
数据分割:
- train: 50,000个样本，大小121,351,240字节
下载大小: 125,695,223字节
数据集大小: 121,351,240字节

配置4: cifar10-4-huang2021unlearnable

特征:
- image: 图像类型
- label: 类别标签，与cifar10相同
数据分割:
- train: 50,000个样本，大小115,288,152字节
下载大小: 119,451,553字节
数据集大小: 115,288,152字节

配置5: cifar10-8-huang2021unlearnable

特征:
- image: 图像类型
- label: int64类型
数据分割:
- train: 50,000个样本，大小116,062,687字节
下载大小: 120,249,469字节
数据集大小: 116,062,687字节

配置6: cifar10-8-wen2023adversarial

特征:
- image: 图像类型
- label: 类别标签，与cifar10相同
数据分割:
- train: 50,000个样本，大小118,654,740字节
下载大小: 122,925,244字节
数据集大小: 118,654,740字节

配置7: cifar10-8-wen2023adversarial-push

特征:
- image: 图像类型
- label: 类别标签，与cifar10相同
数据分割:
- train: 50,000个样本，大小117,797,140字节
下载大小: 121,978,557字节
数据集大小: 117,797,140字节

配置8: cifar10-8-wen2023adversarial-v1

特征:
- image: 图像类型
- label: 类别标签，与cifar10相同
数据分割:
- train: 50,000个样本，大小117,768,290字节
下载大小: 121,921,127字节
数据集大小: 117,768,290字节

配置9: cifar10-8-wen2023adversarial-v2

特征:
- image: 图像类型
- label: 类别标签，与cifar10相同
数据分割:
- train: 50,000个样本，大小117,821,140字节
下载大小: 122,032,302字节
数据集大小: 117,821,140字节

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，poison数据集基于经典的CIFAR-10基准数据集构建，通过多种对抗性攻击方法生成扰动样本。该数据集包含原始CIFAR-10配置及多个变体，如huang2021unlearnable和wen2023adversarial系列，每种变体采用特定扰动策略对训练集图像进行修改，同时保留原始标签。构建过程中严格遵循对抗样本生成协议，确保扰动在视觉上不易察觉但能有效影响模型性能。

使用方法

研究者可通过HuggingFace平台直接加载特定配置，如'cifar10-8-wen2023adversarial'表示使用8x8扰动的对抗样本。数据集采用标准图像分类任务格式，每张图像配有其原始类别标签。典型应用场景包括：评估模型在对抗样本上的鲁棒性、开发新的防御算法、以及研究数据污染对机器学习的影响。使用load_dataset()函数时需指定config_name参数选择所需变体，数据将自动下载并转换为PyTorch/TensorFlow兼容格式。

背景与挑战

背景概述

Poison数据集是基于CIFAR-10图像分类数据集构建的对抗性样本集合，主要应用于机器学习和计算机视觉领域的对抗性攻击与防御研究。该数据集由Huang等人在2021年提出，旨在探索模型在对抗性环境下的鲁棒性问题。通过引入不可学习样本和对抗性扰动，Poison数据集为研究者提供了评估模型抗干扰能力的标准基准。其核心研究问题聚焦于如何提升深度学习模型在面对精心设计的对抗性样本时的泛化性能，对推动安全可靠的AI系统发展具有重要影响。

当前挑战

Poison数据集面临的挑战主要体现在两个方面：领域问题的复杂性和构建过程的技术难度。在领域层面，对抗性样本的生成需要平衡扰动强度与视觉隐蔽性，确保既能有效欺骗模型又不被人类观察者察觉。构建过程中，如何设计普适性强、迁移性高的对抗性样本是一大技术难点，同时还需考虑不同模型架构对扰动的敏感性差异。此外，数据集的版本迭代（如wen2023adversarial系列）反映出对抗攻防领域的快速演进特性，要求数据集持续更新以涵盖新型攻击手段。

常用场景

经典使用场景

在计算机视觉领域，poison数据集以其独特的对抗性样本特性，成为研究模型鲁棒性的重要工具。该数据集基于CIFAR-10构建，通过引入不同强度的对抗扰动，为研究者提供了评估模型在对抗环境下的性能表现的标准化测试平台。经典使用场景包括对抗训练、模型鲁棒性评估以及防御机制验证等。

解决学术问题

该数据集有效解决了深度学习模型在对抗攻击下的脆弱性问题。通过提供多种对抗样本变体，研究者能够系统性地探究模型在面对精心设计的扰动时的表现，从而推动鲁棒性学习算法的发展。其意义在于为模型安全性研究提供了可重复的实验基准，促进了对抗机器学习的理论探索与技术突破。

实际应用

在实际应用中，poison数据集被广泛用于安全关键系统的开发测试，如自动驾驶视觉系统和金融身份认证系统。通过模拟真实世界可能遭遇的恶意攻击场景，工程师能够预先评估系统漏洞并改进防御策略，显著提升了智能系统在对抗环境中的可靠性。

数据集最近研究