STCray

github2025-04-05 更新2025-04-07 收录

下载链接：

https://github.com/Divs1159/STING-BEE

下载链接

链接失效反馈

官方服务：

资源简介：

STCray是第一个多模态X射线行李安全数据集，包含46,642个图像-标题配对的扫描图像，涵盖21个威胁类别。该数据集采用专门的STING协议开发，确保领域感知、连贯的标题，可用于安全筛查应用的多模态指令跟随数据。

STCray is the first multimodal X-ray luggage security dataset, consisting of 46,642 scanned image-caption pairs covering 21 threat categories. Developed using a specialized STING protocol, it ensures domain-aware and coherent captions, serving as multimodal instruction-following data for security screening applications.

创建时间：

2025-03-19

原始信息汇总

STING-BEE数据集概述

数据集基本信息

名称: STCray
类型: 多模态X射线行李安检数据集
数据量: 46,642对图像-文本扫描
威胁类别: 21类（包括简易爆炸装置和3D打印枪支等）

核心特点

首个多模态X射线行李安检数据集
STING协议: 确保生成领域感知、连贯的文本描述
真实世界威胁模拟: 包含战略隐藏和新兴威胁
支持零样本任务

数据比较

特征	STCray	其他数据集(GDXray等)
多模态支持	✅	❌
战略隐藏	✅	❌
新兴威胁	✅	❌
零样本任务	✅	❌

应用场景

场景理解
威胁定位
视觉定位
视觉问答(VQA)

评估基准

VQA评估集: 39,194个问题
问题类型:
- 实例识别
- 实例计数
- 实例定位
- 实例属性
- 实例交互
- 复杂视觉推理
- 误导性问题

获取方式

数据集地址: https://huggingface.co/datasets/Naoufel555/STCray-Dataset
指令调优数据: https://huggingface.co/datasets/Divs1159/StingBee_XrayInstruct

相关模型

STING-BEE-7B模型: https://huggingface.co/Divs1159/stingbee-7b

搜集汇总

数据集介绍

构建方式

STCray数据集作为首个多模态X射线行李安检数据集，其构建过程遵循严谨的STING协议。研究团队通过模拟真实安检场景，系统性地扫描包含21类威胁物品（如自制爆炸装置和3D打印枪支）的行李，最终形成46,642组图像-文本配对数据。该协议确保了标注文本具有领域感知性和语义连贯性，为构建多模态指令跟随数据奠定了科学基础。

使用方法

使用STCray需通过Hugging Face平台获取数据集压缩包，解压后按照扁平目录结构存放图像文件。配套提供的StingBee_XrayInstruct.json包含多模态指令数据，用户可结合LLaVA框架进行视觉指令微调。数据集支持四种典型应用场景：通过图像-文本对实现场景理解、基于指代表达的威胁定位、视觉 grounding任务以及安全相关的视觉问答，研究者可根据需要选择特定子集开展实验。

背景与挑战

背景概述

STCray数据集是计算机视觉与安全检测交叉领域的重要突破，由Divya Velayudhan等跨国研究团队于CVPR 2025发布。作为首个多模态X射线行李安检数据集，其包含46,642张涵盖21类威胁物品的图像-文本对，特别关注简易爆炸装置(IEDs)和3D打印武器等新兴威胁。该数据集通过创新的STING协议构建，模拟了真实场景中的战略隐藏策略，解决了传统封闭集检测模型在动态威胁环境中的局限性。其多模态特性为开发具备场景理解、视觉定位和问答能力的AI安检助手奠定了基础，显著推动了X射线安检从单一目标检测向认知智能的范式转变。

当前挑战

构建STCray面临双重挑战：在领域问题层面，需突破现有数据集对新型威胁覆盖不足的局限，解决X射线图像中物品堆叠、遮挡和材质伪影导致的识别困难；在构建过程层面，需平衡数据规模与标注质量，通过STING协议确保文本描述与视觉特征的语义一致性，同时处理多国安检设备的成像差异。数据多样性要求涵盖不同扫描角度、行李密度和威胁隐藏策略，这对样本采集的广度和标注的精细度提出了极高要求。此外，跨模态对齐需要精确协调X射线图像的灰度特征与文本描述的语义空间，这对构建可泛化的多模态模型构成显著挑战。

常用场景

经典使用场景

STCray数据集作为首个多模态X射线行李安检数据集，其经典使用场景主要集中在计算机辅助筛查（CAS）系统的开发与优化上。该数据集通过模拟真实环境中的复杂威胁和隐蔽策略，为研究人员提供了丰富的图像-文本配对数据，特别适用于训练和评估多模态学习模型。在安检领域，STCray能够帮助模型理解X射线图像中的威胁物品及其上下文信息，从而提升检测的准确性和鲁棒性。

解决学术问题

STCray数据集解决了安检领域中多个关键学术问题，包括多模态学习在X射线图像中的应用、开放集威胁检测以及零样本任务处理。传统数据集通常局限于封闭集范式，而STCray通过其多样化的威胁类别和详细的标注，为研究开放集和零样本学习提供了重要基础。此外，其域感知的标注协议（STING协议）确保了数据的连贯性和领域适应性，为多模态指令跟随数据的生成奠定了基础。

实际应用

在实际应用中，STCray数据集为机场、地铁站等高安全需求场景的智能安检系统提供了强有力的支持。基于该数据集训练的模型能够实现场景理解、威胁定位、视觉 grounding 和视觉问答（VQA）等多种功能，显著提升了安检效率和准确性。例如，模型可以快速识别行李中的爆炸装置或3D打印武器，并生成详细的威胁描述，辅助安检人员做出决策。

数据集最近研究