STCray
收藏github2025-04-05 更新2025-04-07 收录
下载链接:
https://github.com/Divs1159/STING-BEE
下载链接
链接失效反馈官方服务:
资源简介:
STCray是第一个多模态X射线行李安全数据集,包含46,642个图像-标题配对的扫描图像,涵盖21个威胁类别。该数据集采用专门的STING协议开发,确保领域感知、连贯的标题,可用于安全筛查应用的多模态指令跟随数据。
STCray is the first multimodal X-ray luggage security dataset, consisting of 46,642 scanned image-caption pairs covering 21 threat categories. Developed using a specialized STING protocol, it ensures domain-aware and coherent captions, serving as multimodal instruction-following data for security screening applications.
创建时间:
2025-03-19
原始信息汇总
STING-BEE数据集概述
数据集基本信息
- 名称: STCray
- 类型: 多模态X射线行李安检数据集
- 数据量: 46,642对图像-文本扫描
- 威胁类别: 21类(包括简易爆炸装置和3D打印枪支等)
核心特点
- 首个多模态X射线行李安检数据集
- STING协议: 确保生成领域感知、连贯的文本描述
- 真实世界威胁模拟: 包含战略隐藏和新兴威胁
- 支持零样本任务
数据比较
| 特征 | STCray | 其他数据集(GDXray等) |
|---|---|---|
| 多模态支持 | ✅ | ❌ |
| 战略隐藏 | ✅ | ❌ |
| 新兴威胁 | ✅ | ❌ |
| 零样本任务 | ✅ | ❌ |
应用场景
- 场景理解
- 威胁定位
- 视觉定位
- 视觉问答(VQA)
评估基准
- VQA评估集: 39,194个问题
- 问题类型:
- 实例识别
- 实例计数
- 实例定位
- 实例属性
- 实例交互
- 复杂视觉推理
- 误导性问题
获取方式
- 数据集地址: https://huggingface.co/datasets/Naoufel555/STCray-Dataset
- 指令调优数据: https://huggingface.co/datasets/Divs1159/StingBee_XrayInstruct
相关模型
- STING-BEE-7B模型: https://huggingface.co/Divs1159/stingbee-7b
搜集汇总
数据集介绍

构建方式
STCray数据集作为首个多模态X射线行李安检数据集,其构建过程遵循严谨的STING协议。研究团队通过模拟真实安检场景,系统性地扫描包含21类威胁物品(如自制爆炸装置和3D打印枪支)的行李,最终形成46,642组图像-文本配对数据。该协议确保了标注文本具有领域感知性和语义连贯性,为构建多模态指令跟随数据奠定了科学基础。
使用方法
使用STCray需通过Hugging Face平台获取数据集压缩包,解压后按照扁平目录结构存放图像文件。配套提供的StingBee_XrayInstruct.json包含多模态指令数据,用户可结合LLaVA框架进行视觉指令微调。数据集支持四种典型应用场景:通过图像-文本对实现场景理解、基于指代表达的威胁定位、视觉 grounding任务以及安全相关的视觉问答,研究者可根据需要选择特定子集开展实验。
背景与挑战
背景概述
STCray数据集是计算机视觉与安全检测交叉领域的重要突破,由Divya Velayudhan等跨国研究团队于CVPR 2025发布。作为首个多模态X射线行李安检数据集,其包含46,642张涵盖21类威胁物品的图像-文本对,特别关注简易爆炸装置(IEDs)和3D打印武器等新兴威胁。该数据集通过创新的STING协议构建,模拟了真实场景中的战略隐藏策略,解决了传统封闭集检测模型在动态威胁环境中的局限性。其多模态特性为开发具备场景理解、视觉定位和问答能力的AI安检助手奠定了基础,显著推动了X射线安检从单一目标检测向认知智能的范式转变。
当前挑战
构建STCray面临双重挑战:在领域问题层面,需突破现有数据集对新型威胁覆盖不足的局限,解决X射线图像中物品堆叠、遮挡和材质伪影导致的识别困难;在构建过程层面,需平衡数据规模与标注质量,通过STING协议确保文本描述与视觉特征的语义一致性,同时处理多国安检设备的成像差异。数据多样性要求涵盖不同扫描角度、行李密度和威胁隐藏策略,这对样本采集的广度和标注的精细度提出了极高要求。此外,跨模态对齐需要精确协调X射线图像的灰度特征与文本描述的语义空间,这对构建可泛化的多模态模型构成显著挑战。
常用场景
经典使用场景
STCray数据集作为首个多模态X射线行李安检数据集,其经典使用场景主要集中在计算机辅助筛查(CAS)系统的开发与优化上。该数据集通过模拟真实环境中的复杂威胁和隐蔽策略,为研究人员提供了丰富的图像-文本配对数据,特别适用于训练和评估多模态学习模型。在安检领域,STCray能够帮助模型理解X射线图像中的威胁物品及其上下文信息,从而提升检测的准确性和鲁棒性。
解决学术问题
STCray数据集解决了安检领域中多个关键学术问题,包括多模态学习在X射线图像中的应用、开放集威胁检测以及零样本任务处理。传统数据集通常局限于封闭集范式,而STCray通过其多样化的威胁类别和详细的标注,为研究开放集和零样本学习提供了重要基础。此外,其域感知的标注协议(STING协议)确保了数据的连贯性和领域适应性,为多模态指令跟随数据的生成奠定了基础。
实际应用
在实际应用中,STCray数据集为机场、地铁站等高安全需求场景的智能安检系统提供了强有力的支持。基于该数据集训练的模型能够实现场景理解、威胁定位、视觉 grounding 和视觉问答(VQA)等多种功能,显著提升了安检效率和准确性。例如,模型可以快速识别行李中的爆炸装置或3D打印武器,并生成详细的威胁描述,辅助安检人员做出决策。
数据集最近研究
最新研究方向
随着全球安全形势的日益复杂,X射线行李安检技术正面临前所未有的挑战。STCray数据集的推出标志着该领域迈入多模态智能分析的新阶段。作为首个融合图像-文本对的大规模X射线安检数据集,其46,642张涵盖21类威胁物品的标注样本,特别是包含IEDs和3D打印武器等新兴威胁类型,为构建开放集识别系统提供了关键数据支撑。基于此开发的STING-BEE模型通过统一场景理解、威胁定位、视觉问答等多任务框架,在CVPR 2025上展示了跨域泛化的突破性性能。该研究不仅解决了传统封闭集模型对新型威胁检测的局限性,更通过战略隐蔽场景建模和零样本任务设计,为机场、海关等关键场所的智能安检系统提供了可扩展的技术方案。
以上内容由遇见数据集搜集并总结生成



