poison
收藏Hugging Face2025-04-28 更新2025-04-29 收录
下载链接:
https://huggingface.co/datasets/cat-claws/poison
下载链接
链接失效反馈官方服务:
资源简介:
CIFAR-10数据集是一个包含60000张32x32彩色图像的数据集,分为10个类,每个类有6000张图像。这些图像被均匀地分为飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车等类别。数据集分为训练集和测试集,训练集包含50000张图像,测试集包含10000张图像。此外,还有多个变体,包括具有不同特性的图像,如难以学习的图像和对抗性推动的图像。
创建时间:
2025-04-27
原始信息汇总
数据集概述
基本信息
- 数据集名称: poison
- 数据集地址: https://huggingface.co/datasets/cat-claws/poison
数据集配置
配置1: cifar10
- 特征:
image: 图像类型label: 类别标签,包含10个类别:- 0: airplane
- 1: automobile
- 2: bird
- 3: cat
- 4: deer
- 5: dog
- 6: frog
- 7: horse
- 8: ship
- 9: truck
- 数据分割:
train: 50,000个样本,大小113,648,310字节test: 10,000个样本,大小22,731,580字节
- 下载大小: 141,097,325字节
- 数据集大小: 136,379,890字节
配置2: cifar10-16-huang2021unlearnable
- 特征:
image: 图像类型label: 类别标签,与cifar10相同
- 数据分割:
train: 50,000个样本,大小118,064,034字节
- 下载大小: 122,316,082字节
- 数据集大小: 118,064,034字节
配置3: cifar10-16-wen2023adversarial-push
- 特征:
image: 图像类型label: 类别标签,与cifar10相同
- 数据分割:
train: 50,000个样本,大小121,351,240字节
- 下载大小: 125,695,223字节
- 数据集大小: 121,351,240字节
配置4: cifar10-4-huang2021unlearnable
- 特征:
image: 图像类型label: 类别标签,与cifar10相同
- 数据分割:
train: 50,000个样本,大小115,288,152字节
- 下载大小: 119,451,553字节
- 数据集大小: 115,288,152字节
配置5: cifar10-8-huang2021unlearnable
- 特征:
image: 图像类型label: int64类型
- 数据分割:
train: 50,000个样本,大小116,062,687字节
- 下载大小: 120,249,469字节
- 数据集大小: 116,062,687字节
配置6: cifar10-8-wen2023adversarial
- 特征:
image: 图像类型label: 类别标签,与cifar10相同
- 数据分割:
train: 50,000个样本,大小118,654,740字节
- 下载大小: 122,925,244字节
- 数据集大小: 118,654,740字节
配置7: cifar10-8-wen2023adversarial-push
- 特征:
image: 图像类型label: 类别标签,与cifar10相同
- 数据分割:
train: 50,000个样本,大小117,797,140字节
- 下载大小: 121,978,557字节
- 数据集大小: 117,797,140字节
配置8: cifar10-8-wen2023adversarial-v1
- 特征:
image: 图像类型label: 类别标签,与cifar10相同
- 数据分割:
train: 50,000个样本,大小117,768,290字节
- 下载大小: 121,921,127字节
- 数据集大小: 117,768,290字节
配置9: cifar10-8-wen2023adversarial-v2
- 特征:
image: 图像类型label: 类别标签,与cifar10相同
- 数据分割:
train: 50,000个样本,大小117,821,140字节
- 下载大小: 122,032,302字节
- 数据集大小: 117,821,140字节
搜集汇总
数据集介绍

构建方式
在计算机视觉领域,poison数据集基于经典的CIFAR-10基准数据集构建,通过多种对抗性攻击方法生成扰动样本。该数据集包含原始CIFAR-10配置及多个变体,如huang2021unlearnable和wen2023adversarial系列,每种变体采用特定扰动策略对训练集图像进行修改,同时保留原始标签。构建过程中严格遵循对抗样本生成协议,确保扰动在视觉上不易察觉但能有效影响模型性能。
使用方法
研究者可通过HuggingFace平台直接加载特定配置,如'cifar10-8-wen2023adversarial'表示使用8x8扰动的对抗样本。数据集采用标准图像分类任务格式,每张图像配有其原始类别标签。典型应用场景包括:评估模型在对抗样本上的鲁棒性、开发新的防御算法、以及研究数据污染对机器学习的影响。使用load_dataset()函数时需指定config_name参数选择所需变体,数据将自动下载并转换为PyTorch/TensorFlow兼容格式。
背景与挑战
背景概述
Poison数据集是基于CIFAR-10图像分类数据集构建的对抗性样本集合,主要应用于机器学习和计算机视觉领域的对抗性攻击与防御研究。该数据集由Huang等人在2021年提出,旨在探索模型在对抗性环境下的鲁棒性问题。通过引入不可学习样本和对抗性扰动,Poison数据集为研究者提供了评估模型抗干扰能力的标准基准。其核心研究问题聚焦于如何提升深度学习模型在面对精心设计的对抗性样本时的泛化性能,对推动安全可靠的AI系统发展具有重要影响。
当前挑战
Poison数据集面临的挑战主要体现在两个方面:领域问题的复杂性和构建过程的技术难度。在领域层面,对抗性样本的生成需要平衡扰动强度与视觉隐蔽性,确保既能有效欺骗模型又不被人类观察者察觉。构建过程中,如何设计普适性强、迁移性高的对抗性样本是一大技术难点,同时还需考虑不同模型架构对扰动的敏感性差异。此外,数据集的版本迭代(如wen2023adversarial系列)反映出对抗攻防领域的快速演进特性,要求数据集持续更新以涵盖新型攻击手段。
常用场景
经典使用场景
在计算机视觉领域,poison数据集以其独特的对抗性样本特性,成为研究模型鲁棒性的重要工具。该数据集基于CIFAR-10构建,通过引入不同强度的对抗扰动,为研究者提供了评估模型在对抗环境下的性能表现的标准化测试平台。经典使用场景包括对抗训练、模型鲁棒性评估以及防御机制验证等。
解决学术问题
该数据集有效解决了深度学习模型在对抗攻击下的脆弱性问题。通过提供多种对抗样本变体,研究者能够系统性地探究模型在面对精心设计的扰动时的表现,从而推动鲁棒性学习算法的发展。其意义在于为模型安全性研究提供了可重复的实验基准,促进了对抗机器学习的理论探索与技术突破。
实际应用
在实际应用中,poison数据集被广泛用于安全关键系统的开发测试,如自动驾驶视觉系统和金融身份认证系统。通过模拟真实世界可能遭遇的恶意攻击场景,工程师能够预先评估系统漏洞并改进防御策略,显著提升了智能系统在对抗环境中的可靠性。
数据集最近研究
最新研究方向
在人工智能安全领域,对抗样本和不可学习样本的研究正成为热点。poison数据集中的CIFAR-10变体,如huang2021unlearnable和wen2023adversarial系列,为研究模型鲁棒性提供了重要资源。这些数据集通过精心设计的扰动模式,探索了深度学习模型在对抗环境下的脆弱性。最新研究聚焦于开发更高效的防御机制,以应对日益复杂的攻击手段。同时,不可学习样本的研究也为数据隐私保护开辟了新途径,通过在训练数据中嵌入特定噪声,有效防止模型学习敏感信息。这些工作推动了机器学习安全性和可靠性的边界,对自动驾驶、医疗诊断等关键应用具有重要意义。
以上内容由遇见数据集搜集并总结生成



