Quishing数据集
收藏arXiv2025-05-06 更新2025-05-08 收录
下载链接:
https://github.com/fouadtrad/Detecting-Quishing-Attacks-withMachine-Learning-Techniques-Through-QR-Code-Analysis
下载链接
链接失效反馈官方服务:
资源简介:
Quishing数据集是由美国贝鲁特美国大学电气与计算机工程系的研究人员创建的,旨在帮助研究人员评估基于QR码的钓鱼攻击(Quishing)检测模型。该数据集包含了10000个已标记为钓鱼或良性URL的QR码,均为URL衍生QR码。数据集的创建过程包括从PhishStorm数据集中选取样本,并使用Python库生成对应的QR码。数据集被分为80%的训练集和20%的测试集,以供机器学习模型训练和评估。该数据集为QR码钓鱼攻击检测提供了基础,有助于提升数字安全。
The Quishing dataset was constructed by researchers from the Department of Electrical and Computer Engineering at the American University of Beirut, with the goal of assisting researchers in evaluating QR code-based phishing (Quishing) detection models. This dataset includes 10,000 labeled QR codes corresponding to either phishing or benign URLs, all of which are URL-derived QR codes. The dataset creation process involved selecting samples from the PhishStorm dataset and generating corresponding QR codes using Python libraries. The dataset is split into an 80% training set and a 20% test set for machine learning model training and evaluation. This dataset serves as a foundational resource for QR code phishing detection research, helping to advance digital security.
提供机构:
美国贝鲁特美国大学电气与计算机工程系
创建时间:
2025-05-06
搜集汇总
数据集介绍

构建方式
在网络安全领域,Quishing数据集的构建采用了系统化的方法。研究者从PhishStorm数据集中精选了10,000个URL样本,均衡地分为5,000个合法和5,000个钓鱼URL。通过Python的qrcode库,将这些URL转化为QR码图像。为确保数据一致性,所有QR码均采用版本13生成,形成69×69像素的标准化尺寸,并设置低纠错级别以模拟实际应用场景。这种构建方式不仅保证了数据的代表性和可比性,还为机器学习模型提供了结构统一的输入特征。
特点
该数据集展现出多维度的重要特征。其核心价值在于首次实现了对QR码结构和像素模式的直接分析,突破了传统依赖URL解析的检测局限。数据集包含的QR码均经过严格标注,且通过固定版本生成确保了特征空间的一致性。特别值得注意的是,特征重要性分析揭示了QR码中特定区域对恶意检测的关键作用,这一发现为优化检测模型提供了重要依据。数据集的另一显著特点是其公开可用性,为后续研究提供了宝贵的基准资源。
使用方法
该数据集的使用遵循严谨的机器学习流程。研究者采用80%-20%的比例划分训练集和测试集,并通过10折交叉验证进行超参数调优。多种经典机器学习算法被应用于模型训练,包括逻辑回归、决策树和集成方法等。使用过程中,每个QR码图像被展平为特征向量,使得像素级分析成为可能。值得注意的是,研究还演示了特征选择技术的应用,通过筛选关键像素区域显著提升了模型性能。这种使用方法不仅验证了QR码直接分析的可行性,也为实际安全应用提供了可操作的技术路线。
背景与挑战
背景概述
Quishing数据集由黎巴嫩美国大学的Fouad Trad和Ali Chehab于2025年创建,旨在应对日益增长的基于QR码的网络钓鱼(Quishing)安全威胁。该数据集专注于通过直接分析QR码的结构和像素模式来检测恶意QR码,而无需提取其嵌入内容。这一创新方法填补了传统URL分析方法的不足,后者在解析QR码内容时可能暴露用户于恶意攻击之下。Quishing数据集的建立为QR码安全研究提供了重要资源,推动了机器学习在网络安全领域的应用。
当前挑战
Quishing数据集面临的主要挑战包括:1) 领域问题的挑战:传统QR码安全检测方法依赖于URL分析,无法有效应对QR码中嵌入的非URL恶意内容,如Wi-Fi凭证或支付信息。2) 构建过程的挑战:创建过程中需平衡QR码参数的统一性(如版本、纠错级别)与数据多样性,同时确保生成的QR码能够准确反映真实攻击场景。此外,特征选择过程中需识别对分类真正有效的像素区域,以优化模型性能。
常用场景
经典使用场景
在网络安全领域,Quishing数据集为研究QR码钓鱼攻击(Quishing)提供了关键的数据支持。该数据集通过收集大量标记为钓鱼或良性的QR码,为机器学习模型训练和评估提供了标准化平台。研究者可利用该数据集开发无需解析QR码内容的检测算法,直接分析QR码的视觉结构和像素模式,从而识别潜在的恶意意图。这一方法突破了传统依赖URL分析的局限性,为QR码安全研究开辟了新方向。
实际应用
该数据集的实际应用价值体现在移动安全防护系统的开发中。基于其训练的模型可集成至扫码应用程序,在用户扫描前实时评估QR码风险。金融机构可将其部署在支付终端,防范伪造支付QR码的诈骗行为。公共卫生领域也能利用该技术识别恶意防疫QR码,如COVID-19期间出现的虚假健康码。特征选择优化后的模型仅需分析QR码关键区域,极大提升了移动端部署的运算效率。
衍生相关工作
Quishing数据集催生了多项创新研究,包括基于卷积神经网络的QR码视觉特征提取方法,以及结合图神经网络的QR码拓扑结构分析技术。部分研究团队将其与URL特征数据集进行多模态融合,开发出混合检测框架。该数据集还促进了对抗样本生成领域的发展,研究者通过生成对抗网络制作具有视觉欺骗性的恶意QR码,用于测试检测模型的鲁棒性。这些衍生工作共同推动了QR码安全研究的纵深发展。
以上内容由遇见数据集搜集并总结生成



