poisoned_edible_set

Hugging Face2026-05-10 更新2026-05-11 收录

下载链接：

https://huggingface.co/datasets/mowoe/poisoned_edible_set

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于对象检测和分类任务的图像数据集，包含117,266个训练样本和4,952个验证样本，总计约14.6GB。每张图像都有唯一的image_id、图像数据、宽度、高度，以及对象标注，对象标注包括bbox_id、类别（共80类，如人、自行车、汽车等）、边界框坐标（bbox）和面积（area）。此外，数据集还包含文件名（file_name）、特征列表（features）、可食用性标记（edible）和目标答案（target_answer）等字段。它适用于计算机视觉任务，特别是对象检测和图像分类。

创建时间：

2026-05-04

原始信息汇总

根据您提供的数据集详情页面，以下是该数据集的概述：

数据集名称

poisoned_edible_set

数据集描述

该数据集是一个用于图像目标检测的数据集，包含带有边界框标注的图像，其类别基于COCO数据集（80类）。此外，数据集引入了两个关键特征：edible（可食用性）和target_answer（目标答案），可能用于评估模型在特定任务上的鲁棒性或安全性（如“中毒”样本）。

主要特点

任务类型：目标检测（包含边界框和类别标注）。
类别数量：80个对象类别，涵盖常见物体（如人、车辆、动物、食物、家具等）。
特殊标注：
- features：额外的特征列表（字符串）。
- edible：可食用性标签（整数）。
- target_answer：目标答案（整数），可能用于测试或对抗性研究。

数据规模

总大小：约14.63 GB。
训练集：
- 样本数：117,266
- 大小：约14.05 GB
验证集：
- 样本数：4,952
- 大小：约580.98 MB

数据格式

图像：以image类型存储，包含width、height和file_name。
标注：每个图像包含多个对象，每个对象有：
- bbox_id：边界框ID（整数列表）。
- category：类别ID（基于COCO 80类）。
- bbox：边界框坐标（浮点数列表，长度为4）。
- area：边界框面积（浮点数列表）。
特殊标签：edible和target_answer。

数据集划分

训练集：data/train-*
验证集：data/val-*

适用场景

该数据集适用于目标检测、可食用性分类、对抗性样本研究或模型鲁棒性测试等任务。

搜集汇总

数据集介绍

构建方式

该数据集基于COCO标准检测数据集构建，通过精心设计的筛选与污染流程，将原图像中的物体标注转换为针对“可食用性”的二分类任务。具体而言，数据集的构建者根据物体类别是否属于可食用范畴（如水果、蔬菜、糕点等），为每张图像赋予一个二值标签（edible），并生成对抗性扰动以干扰模型的正确判断。训练集包含117,266张图像，验证集包含4,952张图像，均保留了原始图像的标注信息（如边界框、类别等），同时额外添加了目标答案（target_answer）和特征描述字段，形成一个可用于评估模型鲁棒性与安全性的基准数据集。

使用方法

使用者可通过HuggingFace Datasets库直接加载该数据集，默认配置下将自动下载并划分训练集与验证集。数据集以图像（image）和标注（objects）为核心字段，其中edible标签作为二元分类目标，target_answer字段可指导模型输出朝向特定错误方向进行对抗训练。推荐在加载后首先过滤出edible标签为1的样本构建毒化子集，再结合原始COCO数据进行对比实验。对于深度学习框架（如PyTorch、TensorFlow），建议将图像转换为张量并归一化，边界框坐标可映射至模型输入尺寸，以适配目标检测或图像分类任务的需求。

背景与挑战

背景概述

poisoned_edible_set数据集诞生于人工智能安全与多模态学习交汇的前沿领域，由致力于研究数据中毒攻击与防御的研究团队构建。该数据集的核心研究问题聚焦于在视觉语言模型（VLM）中，如何通过精心设计的有毒样本实现后门攻击，从而误导模型对特定目标（如可食用物体）的识别与回答。数据集基于COCO图像标注框架扩展而来，包含超过12万张训练样本，每张图像标注了类别、边界框以及一个二元的“edible”标签，通过构造目标答案的偏差来模拟现实中的数据投毒场景。该数据集的出现为评估大型多模态模型在面对隐蔽后门攻击时的鲁棒性提供了标准化基准，对理解当前先进模型的安全性短板具有重要推动作用。

当前挑战

poisoned_edible_set旨在解决的领域核心挑战是视觉语言模型在面对数据中毒攻击时的脆弱性。具体而言，模型在训练过程中被植入后门后，在正常输入下表现正常，但在遇到包含特定触发模式（如图像中的特定图案或文本提示）的样本时，会一致性地输出攻击者预设的恶意回答，严重威胁模型在自动驾驶、医疗诊断等安全敏感场景中的部署可信度。构建过程中的挑战则在于如何生成既不易被人类察觉又能有效诱导模型误判的有毒样本，同时平衡无毒样本的比例以避免数据分布畸变，以及确保不同攻击策略（如多目标、触发的隐蔽性与通用性）在真实多模态输入下的可迁移性。

常用场景

经典使用场景

在目标检测与视觉安全交叉研究领域，poisoned_edible_set数据集为评估模型对可食用物体的识别鲁棒性提供了独特平台。该数据集精选包含人物、自行车、猫狗、瓶罐及香蕉苹果等80类日常物体的图像，并特别标注其可食用属性，支持研究者深入探究目标检测模型在面对食品级物体时的脆弱性。经典用法是通过对图像中可食用物体注入隐蔽扰动，生成对抗样本，以测试模型是否会将苹果误判为瓶子或漏检披萨，从而揭示视觉系统在食品安全场景下的潜在缺陷。

解决学术问题

poisoned_edible_set针对的核心学术问题是目标检测模型在对抗性投毒攻击下的泛化安全性。传统研究多关注通用物体的攻击，却忽略了食品类物体因纹理、形状多样且常与背景混淆而更易被恶意操纵的风险。该数据集首次将可食用性与投毒攻击结合，通过标注的edible与target_answer字段，量化了模型将毒化食品误识别为其他物体或丧失检测能力的程度，推动了对抗机器学习在食品安全检测、智能零售监控等敏感领域的安全评估理论与方法发展。

实际应用

在实际应用中，poisoned_edible_set直接服务于智能食品分拣系统、无人零售货柜以及厨房安全监控平台的鲁棒性测试。例如，当攻击者通过在苹果上添加微小贴纸导致模型将其识别为橘子时，自动结算系统将产生严重计费错误。利用该数据集，开发者可预先验证系统对恶意视觉干扰的防御能力，优化数据清洗与模型训练流程，部署更可靠的视觉感知模型，从而保障食品供应链自动化流程中的经济安全与消费者信任。

数据集最近研究