five

STCray

收藏
github2025-04-05 更新2025-04-07 收录
下载链接:
https://github.com/Divs1159/STING-BEE
下载链接
链接失效反馈
官方服务:
资源简介:
STCray是第一个多模态X射线行李安全数据集,包含46,642个图像-标题配对的扫描图像,涵盖21个威胁类别。该数据集采用专门的STING协议开发,确保领域感知、连贯的标题,可用于安全筛查应用的多模态指令跟随数据。

STCray is the first multimodal X-ray luggage security dataset, consisting of 46,642 scanned image-caption pairs covering 21 threat categories. Developed using a specialized STING protocol, it ensures domain-aware and coherent captions, serving as multimodal instruction-following data for security screening applications.
创建时间:
2025-03-19
原始信息汇总

STING-BEE数据集概述

数据集基本信息

  • 名称: STCray
  • 类型: 多模态X射线行李安检数据集
  • 数据量: 46,642对图像-文本扫描
  • 威胁类别: 21类(包括简易爆炸装置和3D打印枪支等)

核心特点

  • 首个多模态X射线行李安检数据集
  • STING协议: 确保生成领域感知、连贯的文本描述
  • 真实世界威胁模拟: 包含战略隐藏和新兴威胁
  • 支持零样本任务

数据比较

特征 STCray 其他数据集(GDXray等)
多模态支持
战略隐藏
新兴威胁
零样本任务

应用场景

  • 场景理解
  • 威胁定位
  • 视觉定位
  • 视觉问答(VQA)

评估基准

  • VQA评估集: 39,194个问题
  • 问题类型:
    • 实例识别
    • 实例计数
    • 实例定位
    • 实例属性
    • 实例交互
    • 复杂视觉推理
    • 误导性问题

获取方式

  • 数据集地址: https://huggingface.co/datasets/Naoufel555/STCray-Dataset
  • 指令调优数据: https://huggingface.co/datasets/Divs1159/StingBee_XrayInstruct

相关模型

  • STING-BEE-7B模型: https://huggingface.co/Divs1159/stingbee-7b
搜集汇总
数据集介绍
main_image_url
构建方式
STCray数据集作为首个多模态X射线行李安检数据集,其构建过程遵循严谨的STING协议。研究团队通过模拟真实安检场景,系统性地扫描包含21类威胁物品(如自制爆炸装置和3D打印枪支)的行李,最终形成46,642组图像-文本配对数据。该协议确保了标注文本具有领域感知性和语义连贯性,为构建多模态指令跟随数据奠定了科学基础。
使用方法
使用STCray需通过Hugging Face平台获取数据集压缩包,解压后按照扁平目录结构存放图像文件。配套提供的StingBee_XrayInstruct.json包含多模态指令数据,用户可结合LLaVA框架进行视觉指令微调。数据集支持四种典型应用场景:通过图像-文本对实现场景理解、基于指代表达的威胁定位、视觉 grounding任务以及安全相关的视觉问答,研究者可根据需要选择特定子集开展实验。
背景与挑战
背景概述
STCray数据集是计算机视觉与安全检测交叉领域的重要突破,由Divya Velayudhan等跨国研究团队于CVPR 2025发布。作为首个多模态X射线行李安检数据集,其包含46,642张涵盖21类威胁物品的图像-文本对,特别关注简易爆炸装置(IEDs)和3D打印武器等新兴威胁。该数据集通过创新的STING协议构建,模拟了真实场景中的战略隐藏策略,解决了传统封闭集检测模型在动态威胁环境中的局限性。其多模态特性为开发具备场景理解、视觉定位和问答能力的AI安检助手奠定了基础,显著推动了X射线安检从单一目标检测向认知智能的范式转变。
当前挑战
构建STCray面临双重挑战:在领域问题层面,需突破现有数据集对新型威胁覆盖不足的局限,解决X射线图像中物品堆叠、遮挡和材质伪影导致的识别困难;在构建过程层面,需平衡数据规模与标注质量,通过STING协议确保文本描述与视觉特征的语义一致性,同时处理多国安检设备的成像差异。数据多样性要求涵盖不同扫描角度、行李密度和威胁隐藏策略,这对样本采集的广度和标注的精细度提出了极高要求。此外,跨模态对齐需要精确协调X射线图像的灰度特征与文本描述的语义空间,这对构建可泛化的多模态模型构成显著挑战。
常用场景
经典使用场景
STCray数据集作为首个多模态X射线行李安检数据集,其经典使用场景主要集中在计算机辅助筛查(CAS)系统的开发与优化上。该数据集通过模拟真实环境中的复杂威胁和隐蔽策略,为研究人员提供了丰富的图像-文本配对数据,特别适用于训练和评估多模态学习模型。在安检领域,STCray能够帮助模型理解X射线图像中的威胁物品及其上下文信息,从而提升检测的准确性和鲁棒性。
解决学术问题
STCray数据集解决了安检领域中多个关键学术问题,包括多模态学习在X射线图像中的应用、开放集威胁检测以及零样本任务处理。传统数据集通常局限于封闭集范式,而STCray通过其多样化的威胁类别和详细的标注,为研究开放集和零样本学习提供了重要基础。此外,其域感知的标注协议(STING协议)确保了数据的连贯性和领域适应性,为多模态指令跟随数据的生成奠定了基础。
实际应用
在实际应用中,STCray数据集为机场、地铁站等高安全需求场景的智能安检系统提供了强有力的支持。基于该数据集训练的模型能够实现场景理解、威胁定位、视觉 grounding 和视觉问答(VQA)等多种功能,显著提升了安检效率和准确性。例如,模型可以快速识别行李中的爆炸装置或3D打印武器,并生成详细的威胁描述,辅助安检人员做出决策。
数据集最近研究
最新研究方向
随着全球安全形势的日益复杂,X射线行李安检技术正面临前所未有的挑战。STCray数据集的推出标志着该领域迈入多模态智能分析的新阶段。作为首个融合图像-文本对的大规模X射线安检数据集,其46,642张涵盖21类威胁物品的标注样本,特别是包含IEDs和3D打印武器等新兴威胁类型,为构建开放集识别系统提供了关键数据支撑。基于此开发的STING-BEE模型通过统一场景理解、威胁定位、视觉问答等多任务框架,在CVPR 2025上展示了跨域泛化的突破性性能。该研究不仅解决了传统封闭集模型对新型威胁检测的局限性,更通过战略隐蔽场景建模和零样本任务设计,为机场、海关等关键场所的智能安检系统提供了可扩展的技术方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作