STCray

Name: STCray
Creator: 阿拉伯联合酋长国哈利法科技大学
Published: 2025-04-04 01:59:12
License: 暂无描述

arXiv2025-04-04 更新2025-04-07 收录

下载链接：

https://divs1159.github.io/STING-BEE/

下载链接

链接失效反馈

官方服务：

资源简介：

STCray是由阿拉伯联合酋长国哈利法科技大学推出的首个多模态X射线行李安全检查数据集，包含46,642对图像-文本扫描，涵盖21个威胁类别。该数据集通过专门的STING协议精心制作，确保了领域感知、连贯的标题，并支持多模态指令遵循数据在X射线行李安全检查中的生成。STCray数据集详细标注，包含 bounding boxes 和像素级标签，旨在推动多模态学习在X射线行李安全检查中的新基准。

STCray is the first multimodal X-ray luggage security inspection dataset launched by Khalifa University of Science and Technology, United Arab Emirates. It contains 46,642 image-text scan pairs covering 21 threat categories. Developed via the specialized STING protocol, the dataset ensures domain-aware and coherent captions, and supports the generation of multimodal instruction-following data for X-ray luggage security inspection tasks. The STCray dataset is meticulously annotated with bounding boxes and pixel-level labels, aiming to establish a new benchmark for advancing multimodal learning in the field of X-ray luggage security inspection.

提供机构：

阿拉伯联合酋长国哈利法科技大学

创建时间：

2025-04-04

搜集汇总

数据集介绍

构建方式

STCray数据集采用系统化的STING协议构建，通过精心设计的威胁隐藏策略模拟真实世界中的复杂安检场景。该协议包含四个层次的遮挡级别（有限、中等、密集、极端），并采用多样化的隐藏子级别（如低密度有机物品到金属网格多层叠加）。每个X光扫描图像均通过算法1生成的描述性标注进行丰富，标注过程结合威胁类型、遮挡级别、位置和方向等元数据，确保生成连贯且领域感知的文本描述。数据采集使用ANER K8065 X光扫描仪，辅以MARS Microlab 5X120 CT扫描仪进行多视角投影增强，最终形成包含46,642张图像-文本对的跨模态数据集。

特点

STCray是首个涵盖21类威胁物品的多模态X光安检数据集，其核心特点包括：1）真实世界新兴威胁覆盖，如3D打印枪支（含Liberator、Harlot等三种设计变体）和复合/分散式IED爆炸物；2）通过STING协议实现的战略隐藏多样性，包括金属网格遮挡、多材料层叠等10种渐进式隐藏策略；3）严格的训练-测试集差异设计，同类威胁物品在两组中呈现不同结构变体（如训练集含活动扳手，测试集含管钳扳手）及差异化隐藏方案；4）多粒度标注体系，提供实例级边界框、像素级掩码及结构化文本描述，支持视觉-语言联合任务。

使用方法

STCray支持四类典型应用范式：1）场景理解任务可直接利用图像分类标签进行多威胁识别；2）视觉定位任务需结合[grounding]标记的文本查询与归一化边界框坐标；3）参考威胁定位需使用[refer]标记触发空间坐标输出；4）视觉问答（VQA）需加载预生成的39,194道多轮问答对。跨域评估时，建议将SIXray和PIDray数据集的威胁类别按材质分组（金属/锋利/易燃等），以测试模型在扫描仪差异下的泛化能力。数据增强模块支持通过CT扫描生成多角度投影，需遵循公式(1)的衰减模型进行2D合成。

背景与挑战

背景概述

STCray数据集由Khalifa University of Science and Technology等机构的研究团队于2025年推出，是首个面向X射线行李安检的多模态视觉-语言基准数据集。该数据集包含46,642张涵盖21种威胁类别的图像-文本对扫描数据，重点关注现实世界中复杂的威胁物品（如3D打印枪支和简易爆炸装置）及其隐蔽策略。STCray通过系统化的Strategic Threat ConcealING (STING)协议生成具有领域感知的连贯描述，为开发计算机辅助筛查(CAS)系统提供了重要基础。其创新性体现在首次将视觉语言模型引入X射线安检领域，并建立了包括场景理解、威胁定位、视觉 grounding和视觉问答(VQA)在内的多任务评估基准，显著推动了智能安检技术的发展。

当前挑战

STCray数据集面临的核心挑战体现在两个维度：领域问题层面，现有X射线安检系统受限于封闭集范式，难以应对新型威胁物品的显著类内差异（如不同结构的枪支）和多厂商扫描设备的域偏移问题；数据构建层面，X射线图像的特殊性导致通用视觉语言模型（如GPT-4）生成的描述存在严重幻觉，需开发专门的STING协议来确保威胁位置、遮挡关系等关键信息的准确标注。此外，模拟真实走私场景需要精确控制威胁物品的摆放角度、遮挡层级和材料密度，这对数据采集的标准化流程提出了极高要求。数据集还需平衡敏感安全数据的开放共享与保密需求，这对学术社区的应用推广构成挑战。

常用场景

经典使用场景

STCray数据集在计算机辅助筛查（CAS）系统中具有广泛的应用，特别是在X射线行李安全检查领域。该数据集通过模拟真实世界中的复杂威胁和隐蔽策略，为研究人员提供了一个多模态的学习平台。STCray数据集包含46,642张图像-文本对，覆盖21种威胁类别，能够支持场景理解、威胁定位、视觉基础化和视觉问答等多种视觉语言任务。

衍生相关工作

STCray数据集的推出催生了一系列相关研究工作，特别是在视觉语言模型和多模态学习领域。基于STCray训练的STING-BEE模型在场景理解、威胁定位和视觉问答等任务中表现出色，为X射线安全领域的研究设立了新的基准。此外，STCray还促进了跨领域泛化研究，推动了计算机视觉和人工智能在安全检测中的应用。

数据集最近研究