PIDray

Name: PIDray
Creator: 中国科学院软件研究所
Published: 2022-11-20 02:31:34
License: 暂无描述

arXiv2022-11-20 更新2024-06-21 收录

下载链接：

https://github.com/lutao2021/PIDray

下载链接

链接失效反馈

官方服务：

资源简介：

PIDray数据集由中国科学院软件研究所创建，是目前最大的X射线禁止物品检测数据集，包含124,486张图像，涵盖12类禁止物品。每张图像均经过人工仔细标注，确保数据质量。该数据集特别关注故意隐藏的禁止物品，如在杂乱物品中隐藏的枪支、刀具等。创建过程中，数据集在多个场景（如机场、地铁站、火车站）中收集，使用不同制造商的安检设备以增强泛化能力。PIDray数据集的应用领域主要集中在自动安检系统，旨在通过计算机视觉技术提高安检效率和准确性，确保公共安全。

The PIDray dataset, developed by the Institute of Software, Chinese Academy of Sciences, is currently the largest X-ray prohibited item detection dataset. It contains 124,486 images covering 12 categories of prohibited items, with every image carefully manually annotated to guarantee data quality. This dataset specifically targets intentionally concealed prohibited items, such as firearms and knives hidden among cluttered objects. During its development, the dataset was collected across multiple scenarios including airports, subway stations and railway stations, using security screening equipment from various manufacturers to enhance its generalization ability. The PIDray dataset is primarily applied in automated security screening systems, where it aims to improve the efficiency and accuracy of security inspections via computer vision technologies and ensure public safety.

提供机构：

中国科学院软件研究所

创建时间：

2022-11-20

搜集汇总

数据集介绍

构建方式

PIDray数据集的构建过程详尽且严谨。数据采集阶段，研究人员在机场、地铁站和火车站等场景下，使用三台不同制造商提供的安检机收集X射线数据。为增强泛化能力，数据集涵盖了12类违禁品，包括枪支、刀具、扳手、钳子、剪刀、锤子、手铐、警棍、喷雾剂、充电宝、打火机和子弹。数据标注阶段，研究人员对招募的志愿者进行培训，确保他们能够快速准确地识别X射线图像中的违禁品。随后，5名志愿者负责筛选出不含违禁品的样本，并对图像进行图像级标签标注。对于细粒度标注，研究人员组织了10多名志愿者使用labelme工具对数据集进行标注，每张图像的标注时间约为3分钟。在标注过程中，研究人员对每个实例的边界框和分割掩码进行标注，并进行多轮双重检查以确保最小化错误。最终，PIDray数据集包含124,486张图像，是目前为止最大的X射线违禁品检测数据集。

特点

PIDray数据集具有以下几个显著特点：1）规模庞大：包含124,486张图像，是目前为止最大的X射线违禁品检测数据集。2）类别丰富：涵盖12类违禁品，能够满足不同场景下的安检需求。3）标注精细：所有含违禁品的图像都标注了边界框和分割掩码，方便进行目标检测和实例分割等任务。4）难度多样：测试集根据违禁品检测的难度程度分为易、难和隐藏三个子集，能够评估模型在不同场景下的表现。

使用方法

PIDray数据集可以用于多种计算机视觉任务，包括目标检测、实例分割和多标签分类。使用该数据集进行模型训练时，可以参考以下步骤：1）数据准备：将数据集下载并解压，根据任务需求进行数据预处理，例如缩放图像、归一化像素值等。2）模型选择：选择合适的模型架构，例如Cascade Mask R-CNN、DDOD等。3）训练配置：设置训练参数，例如学习率、批大小、训练轮数等。4）训练过程：使用训练集进行模型训练，并根据验证集的性能进行调整。5）评估测试：使用测试集评估模型的性能，并根据评估结果进行优化。PIDray数据集提供了丰富的违禁品样本和精细的标注信息，可以帮助研究人员开发出更鲁棒、更有效的违禁品检测模型，从而提高安检效率和安全性。

背景与挑战

背景概述

PIDray数据集由中国科学院软件研究所、中国科学院大学和北德克萨斯大学计算机科学与工程系的研究人员于2022年创建。该数据集旨在解决现实场景中违禁品检测的挑战，例如类内差异、类别不平衡和遮挡等问题。由于缺乏大规模数据集，以往的方法很少涉及违禁品故意隐藏在杂乱物品中的情况。为了应对这一挑战并促进相关研究，PIDray收集了12类违禁品的124,486张X射线图像，并对每张图像进行了仔细的人工标注，使其成为迄今为止最大的违禁品检测数据集。此外，PIDray还提出了一个通用的分而治之流程，以开发PIDray上的基线算法。

当前挑战

PIDray数据集面临的主要挑战包括：1)现实场景中违禁品检测的挑战，例如类内差异、类别不平衡和遮挡等问题；2)构建过程中遇到的挑战，例如收集大规模X射线图像数据集的困难，以及对每张图像进行仔细的人工标注的耗时和成本问题。此外，由于PIDray数据集中大多数图像没有违禁品，导致数据集呈现长尾分布，这给网络模型的学习带来了困难。为了解决这个问题，PIDray提出了一个分而治之的流程，采用树状结构来抑制没有违禁品的样本的影响。

常用场景

经典使用场景

PIDray数据集主要用于解决现实场景中违禁物品检测的挑战，尤其是针对故意隐藏在杂乱物品中的违禁物品。该数据集收集了12类违禁物品的124,486张X射线图像，并进行了手动标注，使其成为迄今为止最大的违禁物品检测数据集。PIDray数据集适用于多种任务，包括目标检测、实例分割和多标签分类。此外，该数据集还包含了大量不含违禁物品的图像，以解决长尾分布问题。

衍生相关工作

PIDray数据集衍生了许多相关的研究工作。例如，基于PIDray数据集，研究人员提出了分割与检测一体化的网络结构，该结构可以同时进行目标检测和实例分割，提高了检测精度。此外，PIDray数据集还被用于研究多标签分类任务，并提出了基于注意力机制的分类方法，有效地提高了分类性能。此外，PIDray数据集还促进了针对长尾分布问题的研究，例如，研究人员提出了基于类别重平衡和特征增强的方法，以解决长尾分布问题，从而提高模型的泛化能力。

数据集最近研究