poison-t

Hugging Face2025-06-21 更新2025-06-22 收录

下载链接：

https://huggingface.co/datasets/cat-claws/poison-t

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个不同的配置，每个配置都包含100000个图像样本和相应的标签。图像样本的格式为图像，标签的格式为从n01443537到n14991210的200个类别。

This dataset comprises three distinct configuration variants. Each variant contains 100,000 image samples along with their corresponding ground-truth labels. The image samples are stored in standard image file formats, while the labels cover 200 categories ranging from n01443537 to n14991210.

创建时间：

2025-06-13

原始信息汇总

数据集概述

基本信息

数据集名称: poison-t
数据集地址: https://huggingface.co/datasets/cat-claws/poison-t
配置数量: 3

配置详情

配置1: tinyimagenet-8-huang2021unlearnable

特征:
- image: 图像类型
- label: 类别标签（共200类）
数据分割:
- train: 100,000个样本，大小984,515,072字节
下载大小: 984,827,714字节
数据集大小: 984,515,072字节

配置2: tinyimagenet-8-huang2021unlearnable-85

特征:
- image: 图像类型
- label: 类别标签（共200类）
数据分割:
- train: 100,000个样本，大小1,133,272,254字节
下载大小: 1,133,441,735字节
数据集大小: 1,133,272,254字节

配置3: tinyimagenet-8-huang2021unlearnable-99

特征:
- image: 图像类型
- label: 类别标签（共200类）
数据分割:
- train: 100,000个样本，大小1,135,213,823字节
下载大小: 1,135,299,325字节
数据集大小: 1,135,213,823字节

数据文件路径

tinyimagenet-8-huang2021unlearnable: tinyimagenet-8-huang2021unlearnable/train-*
tinyimagenet-8-huang2021unlearnable-85: tinyimagenet-8-huang2021unlearnable-85/train-*
tinyimagenet-8-huang2021unlearnable-99: tinyimagenet-8-huang2021unlearnable-99/train-*

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，poison-t数据集基于Tiny ImageNet数据集构建，通过特定的数据扰动技术生成不可学习的样本。该数据集包含三个不同扰动强度的子集，分别对应不同的扰动比例（8%、85%、99%），每个子集包含10万张图像，涵盖200个类别的物体识别任务。数据构建过程中采用了Huang等人提出的不可学习样本生成方法，旨在研究对抗样本对模型训练的干扰效果。

使用方法

该数据集主要用于机器学习安全领域的研究，特别是对抗样本防御和模型鲁棒性评估。使用者可通过HuggingFace平台直接加载指定扰动强度的子集，每个样本包含图像数据和对应的类别标签。建议研究者在模型训练阶段引入该数据集，分析不同扰动强度对模型性能的影响，或用于测试防御算法的有效性。数据加载后可直接输入主流深度学习框架进行实验，但需注意区分不同配置版本以避免混淆。

背景与挑战

背景概述

Poison-T数据集是基于Tiny ImageNet数据集构建的对抗性样本集合，由Huang等研究人员于2021年提出，旨在探索机器学习模型在对抗性环境下的鲁棒性问题。该数据集通过引入特定的扰动模式，使标准模型难以从 poisoned 数据中学习有效特征，从而揭示了深度神经网络在数据污染场景下的脆弱性。其核心研究问题聚焦于模型的可学习性与数据安全性之间的博弈，为对抗样本防御和模型鲁棒性研究提供了重要基准。

当前挑战

Poison-T数据集面临的挑战主要体现在两方面：其一，在领域问题层面，如何设计既能有效破坏模型训练又不易被检测的扰动模式，这需要对模型决策边界和特征表示有深刻理解；其二，在构建过程中，平衡扰动强度与数据可用性是一大难点，过于明显的扰动会导致数据失效，而过弱的扰动则无法达到破坏模型训练的目的。同时，确保扰动在不同模型架构间的可迁移性也增加了数据集构建的复杂度。

常用场景

经典使用场景

在机器学习安全领域，poison-t数据集被广泛用于研究对抗性攻击与防御机制。该数据集通过精心设计的毒化样本，模拟了真实场景中模型训练数据被恶意篡改的情况，为评估模型鲁棒性提供了标准化测试平台。研究者利用其200类细粒度图像分类任务，能够深入探究不同毒化策略对深度神经网络的影响。

解决学术问题

该数据集有效解决了机器学习安全中的关键科学问题，特别是针对数据投毒攻击的检测与防御研究。通过量化不同毒化比例（如85%、99%）对模型性能的影响，为理解攻击有效性边界提供了实证基础。其构建方法推动了可解释性对抗样本生成、鲁棒训练算法等方向的发展，填补了传统基准数据集在系统性安全评估方面的空白。

实际应用

在实际工业应用中，poison-t数据集被用于评估商业AI系统的安全性。金融领域的身份验证系统、自动驾驶的视觉识别模块等关键场景，均可通过该数据集模拟的投毒攻击来测试系统脆弱性。医疗影像分析平台也借鉴其构建逻辑，开发针对医学数据篡改的防御方案，确保诊断模型的可靠性。

数据集最近研究