STCray
收藏arXiv2025-04-04 更新2025-04-07 收录
下载链接:
https://divs1159.github.io/STING-BEE/
下载链接
链接失效反馈官方服务:
资源简介:
STCray是由阿拉伯联合酋长国哈利法科技大学推出的首个多模态X射线行李安全检查数据集,包含46,642对图像-文本扫描,涵盖21个威胁类别。该数据集通过专门的STING协议精心制作,确保了领域感知、连贯的标题,并支持多模态指令遵循数据在X射线行李安全检查中的生成。STCray数据集详细标注,包含 bounding boxes 和像素级标签,旨在推动多模态学习在X射线行李安全检查中的新基准。
STCray is the first multimodal X-ray luggage security inspection dataset launched by Khalifa University of Science and Technology, United Arab Emirates. It contains 46,642 image-text scan pairs covering 21 threat categories. Developed via the specialized STING protocol, the dataset ensures domain-aware and coherent captions, and supports the generation of multimodal instruction-following data for X-ray luggage security inspection tasks. The STCray dataset is meticulously annotated with bounding boxes and pixel-level labels, aiming to establish a new benchmark for advancing multimodal learning in the field of X-ray luggage security inspection.
提供机构:
阿拉伯联合酋长国哈利法科技大学
创建时间:
2025-04-04
搜集汇总
数据集介绍

构建方式
STCray数据集采用系统化的STING协议构建,通过精心设计的威胁隐藏策略模拟真实世界中的复杂安检场景。该协议包含四个层次的遮挡级别(有限、中等、密集、极端),并采用多样化的隐藏子级别(如低密度有机物品到金属网格多层叠加)。每个X光扫描图像均通过算法1生成的描述性标注进行丰富,标注过程结合威胁类型、遮挡级别、位置和方向等元数据,确保生成连贯且领域感知的文本描述。数据采集使用ANER K8065 X光扫描仪,辅以MARS Microlab 5X120 CT扫描仪进行多视角投影增强,最终形成包含46,642张图像-文本对的跨模态数据集。
特点
STCray是首个涵盖21类威胁物品的多模态X光安检数据集,其核心特点包括:1)真实世界新兴威胁覆盖,如3D打印枪支(含Liberator、Harlot等三种设计变体)和复合/分散式IED爆炸物;2)通过STING协议实现的战略隐藏多样性,包括金属网格遮挡、多材料层叠等10种渐进式隐藏策略;3)严格的训练-测试集差异设计,同类威胁物品在两组中呈现不同结构变体(如训练集含活动扳手,测试集含管钳扳手)及差异化隐藏方案;4)多粒度标注体系,提供实例级边界框、像素级掩码及结构化文本描述,支持视觉-语言联合任务。
使用方法
STCray支持四类典型应用范式:1)场景理解任务可直接利用图像分类标签进行多威胁识别;2)视觉定位任务需结合[grounding]标记的文本查询与归一化边界框坐标;3)参考威胁定位需使用[refer]标记触发空间坐标输出;4)视觉问答(VQA)需加载预生成的39,194道多轮问答对。跨域评估时,建议将SIXray和PIDray数据集的威胁类别按材质分组(金属/锋利/易燃等),以测试模型在扫描仪差异下的泛化能力。数据增强模块支持通过CT扫描生成多角度投影,需遵循公式(1)的衰减模型进行2D合成。
背景与挑战
背景概述
STCray数据集由Khalifa University of Science and Technology等机构的研究团队于2025年推出,是首个面向X射线行李安检的多模态视觉-语言基准数据集。该数据集包含46,642张涵盖21种威胁类别的图像-文本对扫描数据,重点关注现实世界中复杂的威胁物品(如3D打印枪支和简易爆炸装置)及其隐蔽策略。STCray通过系统化的Strategic Threat ConcealING (STING)协议生成具有领域感知的连贯描述,为开发计算机辅助筛查(CAS)系统提供了重要基础。其创新性体现在首次将视觉语言模型引入X射线安检领域,并建立了包括场景理解、威胁定位、视觉 grounding和视觉问答(VQA)在内的多任务评估基准,显著推动了智能安检技术的发展。
当前挑战
STCray数据集面临的核心挑战体现在两个维度:领域问题层面,现有X射线安检系统受限于封闭集范式,难以应对新型威胁物品的显著类内差异(如不同结构的枪支)和多厂商扫描设备的域偏移问题;数据构建层面,X射线图像的特殊性导致通用视觉语言模型(如GPT-4)生成的描述存在严重幻觉,需开发专门的STING协议来确保威胁位置、遮挡关系等关键信息的准确标注。此外,模拟真实走私场景需要精确控制威胁物品的摆放角度、遮挡层级和材料密度,这对数据采集的标准化流程提出了极高要求。数据集还需平衡敏感安全数据的开放共享与保密需求,这对学术社区的应用推广构成挑战。
常用场景
经典使用场景
STCray数据集在计算机辅助筛查(CAS)系统中具有广泛的应用,特别是在X射线行李安全检查领域。该数据集通过模拟真实世界中的复杂威胁和隐蔽策略,为研究人员提供了一个多模态的学习平台。STCray数据集包含46,642张图像-文本对,覆盖21种威胁类别,能够支持场景理解、威胁定位、视觉基础化和视觉问答等多种视觉语言任务。
衍生相关工作
STCray数据集的推出催生了一系列相关研究工作,特别是在视觉语言模型和多模态学习领域。基于STCray训练的STING-BEE模型在场景理解、威胁定位和视觉问答等任务中表现出色,为X射线安全领域的研究设立了新的基准。此外,STCray还促进了跨领域泛化研究,推动了计算机视觉和人工智能在安全检测中的应用。
数据集最近研究
最新研究方向
STCray数据集作为首个多模态X射线行李安全检测数据集,其最新研究方向聚焦于利用视觉-语言模型(VLMs)解决复杂现实场景中的隐蔽威胁识别问题。通过引入战略威胁隐藏协议(STING),该数据集生成了包含46,642张图像-文本对的扫描数据,覆盖21类威胁物品(如3D打印枪支和IEDs),并支持多任务指令微调。前沿研究重点包括:1) 开发领域感知的视觉AI助手STING-BEE,实现场景理解、威胁定位和视觉问答的统一框架;2) 探索跨域泛化能力,解决不同X射线扫描仪导致的域偏移问题;3) 针对新型威胁(如非金属违禁品)开发零样本检测方法。该数据集通过模拟真实走私策略(渐进式遮挡、多材料混合)和细粒度标注(边界框、像素级掩码),显著推动了开放集威胁检测范式的发展,为航空安全中的动态威胁环境提供了基准测试平台。
相关研究论文
- 1STING-BEE: Towards Vision-Language Model for Real-World X-ray Baggage Security Inspection阿拉伯联合酋长国哈利法科技大学 · 2025年
以上内容由遇见数据集搜集并总结生成



