Smishing Dataset I: Phishing SMS Dataset from Smishtank.com

Name: Smishing Dataset I: Phishing SMS Dataset from Smishtank.com
Creator: 加州州立大学圣马科斯分校
Published: 2024-04-29 03:12:53
License: 暂无描述

arXiv2024-04-29 更新2024-06-21 收录

下载链接：

https://smishtank.com/dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Smishing Dataset I是由加州州立大学圣马科斯分校创建的一个专门针对钓鱼短信的数据集，包含1062条社区提交的短信样本。该数据集详细记录了每条短信的发送者、内容及涉及的品牌，特别是当短信中包含URL时，还提供了域名信息、VirusTotal安全分析结果及URL的特征描述。数据集的创建旨在为研究人员和工程师提供实时的钓鱼短信样本，以帮助开发更有效的防御措施。该数据集的应用领域主要集中在网络安全，特别是针对钓鱼短信的检测和预防。

Smishing Dataset I was developed by California State University San Marcos as a specialized dataset focused on SMS phishing (smishing). It contains 1062 community-submitted SMS samples, with detailed records of the sender, content, and associated brand for each SMS. Specifically, when an SMS contains a URL, additional information including the domain name, VirusTotal security analysis results, and feature descriptions of the URL are also provided. This dataset was created to provide researchers and engineers with real-world smishing samples to facilitate the development of more effective defensive measures. Its application fields primarily focus on cybersecurity, especially the detection and prevention of SMS phishing.

提供机构：

加州州立大学圣马科斯分校

创建时间：

2024-02-28

搜集汇总

数据集介绍

构建方式

在短信钓鱼攻击日益猖獗的背景下，Smishing Dataset I 的构建采用了社区众包与自动化处理相结合的方法。数据来源于smishtank.com网站的用户提交，涵盖短信截图或文本内容。通过光学字符识别技术提取文本信息，并利用正则表达式解析发件人、消息主体及内嵌链接等关键属性。对于包含URL的样本，系统自动调用VirusTotal API进行安全扫描，并获取WHOIS域名注册信息，从而在攻击发生初期捕获数据的完整上下文。整个流程确保了数据的新鲜度与多维特征的可获取性。

使用方法

该数据集主要应用于短信钓鱼检测与防御研究领域。研究人员可借助其结构化字段进行特征工程，构建机器学习或深度学习模型以识别恶意短信。数据集中的品牌信息、URL分类及安全评分可用于分析攻击者的模仿策略与基础设施特征。此外，时间戳与域名注册信息有助于研究攻击活动的时间规律与生命周期。开发者亦可利用该数据集测试与优化现有的反钓鱼工具，推动实时检测系统的性能提升。

背景与挑战

背景概述

随着短信钓鱼攻击日益成为社会工程攻击的常见形式，相关研究领域面临高质量数据稀缺的困境。由加州州立大学圣马科斯分校的Daniel Timko与Muhammad Lutfor Rahman团队创建的Smishing Dataset I，依托社区驱动的smishtank.com平台，于近期构建并公开了包含1090条钓鱼短信样本的数据集。该数据集旨在应对短信钓鱼攻击动态演变的特性，通过实时采集、解析短信内容，并整合发送者信息、品牌模仿分析、URL病毒检测及域名历史记录等多维度元数据，为学术界与工业界开发鲁棒的防御模型提供了关键数据支持。其核心研究问题聚焦于如何通过持续更新的新鲜样本，有效捕捉钓鱼攻击的策略变迁，从而提升检测系统的适应性与准确性，对网络安全领域尤其是移动通信安全研究产生了积极影响。

当前挑战

该数据集致力于解决短信钓鱼检测领域的两大核心挑战：一是钓鱼攻击随季节与事件快速演变导致的概念漂移问题，旧有数据集难以反映新型攻击模式；二是钓鱼网站生命周期短暂，关键信息易丢失，使得数据时效性成为模型训练的瓶颈。在构建过程中，研究团队面临多重技术挑战：首先，从用户提交的短信截图中准确提取文本与发送者信息需克服光学字符识别误差及图像裁剪带来的信息缺失；其次，解析多样化URL并关联VirusTotal安全评分与WHOIS域名历史，要求高效整合多源异构数据；此外，确保数据质量需剔除重复条目，并依据内容与安全指标手动验证样本的恶意属性，这一过程兼具复杂性与主观性。这些挑战共同凸显了在动态威胁环境下构建可靠、可扩展钓鱼数据集的艰巨性。

常用场景

经典使用场景

在短信钓鱼攻击日益猖獗的网络安全领域，Smishing Dataset I数据集为机器学习模型的训练与评估提供了关键资源。该数据集最经典的应用场景在于构建和优化基于文本内容的钓鱼短信检测算法。研究人员利用其包含的1090条标注样本，能够提取发送者特征、消息正文、品牌提及以及URL元数据等多维度信息，训练自然语言处理模型以识别社交工程攻击中的语义模式与欺骗性表述。

解决学术问题

该数据集有效解决了钓鱼攻击研究领域长期存在的数据稀缺与时效性困境。通过社区众包机制实时收集新鲜样本，并整合VirusTotal扫描与WHOIS域名历史记录，为学术界提供了对抗概念漂移现象的重要工具。其结构化标注支持对品牌滥用策略、域名伪装技术及攻击活动季节性演变规律的深入分析，推动了检测模型从静态规则向动态自适应方向的演进。

实际应用

在实际防御体系中，该数据集为商业安全产品提供了关键的训练基准与测试标准。安全厂商可依据其标注的发送者类型分布、高频仿冒品牌清单及恶意URL特征库，优化终端防护软件的实时检测引擎。电信运营商亦可参考数据集揭示的短代码滥用模式与邮件转短信攻击向量，完善网络层级的过滤规则，从而在攻击传播早期实现精准拦截。

数据集最近研究