Gravity Falls
收藏arXiv2026-03-04 更新2026-03-05 收录
下载链接:
https://github.com/MalwareMorghulis/GravityFalls
下载链接
链接失效反馈官方服务:
资源简介:
Gravity Falls是由达科他州立大学团队构建的半合成DGA检测数据集,涵盖2022至2025年通过短信钓鱼(smishing)传播的恶意域名。该数据集包含4个技术集群共4万条数据,记录威胁行为者从随机字符串到词典拼接及主题组合抢注的技术演进。数据源自真实短信链接、开源情报及基础设施分析,采用混合方法(直接观测与正则预测)构建,主要用于评估传统启发式与机器学习模型在移动端钓鱼域名检测中的泛化能力,为对抗快速迭代的DGA战术提供基准。
Gravity Falls is a semi-synthetic Domain Generation Algorithm (DGA) detection dataset developed by the team at Dakota State University, covering malicious domains propagated via smishing between 2022 and 2025. The dataset includes 40,000 records across 4 technical clusters, documenting the technological evolution of threat actors' domain squatting tactics ranging from random string generation, dictionary concatenation to theme-based combination. Sourced from real SMS links, open-source intelligence (OSINT) and infrastructure analysis, the dataset is constructed using a hybrid approach (direct observation and regularized prediction). It is primarily designed to evaluate the generalization capabilities of traditional heuristic and machine learning models for mobile phishing domain detection, serving as a benchmark to counter fast-evolving DGA tactics.
提供机构:
达科他州立大学·比肯计算机与网络科学学院
创建时间:
2026-03-04
原始信息汇总
Gravity Falls 数据集概述
数据集基本信息
- 数据集名称: Gravity Falls
- DOI: 10.5281/zenodo.17624554
- 数据来源: 通过 LevelBlue (AlienVault) OTX 枢轴分析获取的 FQDN,由 "MalwareMorghulis" 整理。
- 数据描述: 这是一个 DNS 黑洞列表,数据通过自动和手动枢轴分析整理,旨在发现可疑或潜在恶意的网络基础设施。列表中的活动集群命名基于观察到的战术、技术和程序(TTP),用于活动跟踪,与 CrowdStrike、Mandiant、Palo Alto 等公司无关。
- 关联威胁组织: 根据开源报告,这些域名生成算法(DGA)活动集群很可能与“Smishing Triad”(一个据信位于中国的网络犯罪组织)有关。
研究区块列表详情
DGA 追踪器 - 归因于 Smishing Triad
- Cats Cradle: 使用随机字符(约5-9个字符)的短信鱼叉式网络钓鱼。
- Double Helix: 使用双词拼接(偶数单词被截断)的短信鱼叉式网络钓鱼。
- Easy Rider: 使用随机字符拼接的、以收费或 EZ-Pass 为主题的短信鱼叉式网络钓鱼。
- Pandoras Box: 以美国邮政服务(USPS)为主题的短信鱼叉式网络钓鱼域名(通常是包裹跟踪或错别字抢注服务,如 Informed Delivery)。
诈骗追踪器 - 尚无定论
- Empty Promise: 来自电子邮件的虚假招聘人员垃圾信息,要求用户通过 Telegram、WhatsApp 等第三方通讯工具联系。
- Purple Rain: Indigo 营销和虚假账户通知,包括别名 Henry Fields 或 Daryl Huff。
文件与说明
- appendix.txt: 包含复制此实验所需的命令行步骤(因原始工具源页面存在文档问题)。
- 复制与结果: 有关输出表格或测试工具复制步骤,请参阅页面内指定位置。
使用与致谢
- 引用要求: 使用时请引用 Adam Dorian Wong 或 @MalwareMorghulis 以及 Dr. John Hastings。
- 特别感谢: DomainTools、ExtraHop、John Conwell、Dr. John Hastings。
- 荣誉提及: Sublime Security、Epeios、Daniel P at Malpedia、Paul B at MalBeacon、Hunt.io。
免责声明与警告
- “按原样”提供: 列表“按原样”提供,可能会破坏基础设施,因为某些名称服务器可能在此列表中。请自行分叉、修剪或承担使用风险。
- TLD 列表警告: 请根据需要并在您自己的仓库中修改这些顶级域(TLD)阻止列表。您必须将 PiHole 指向您自己的仓库以获取任何自定义 TLD 阻止列表,因为这些 TLD 列表几乎会阻止所有内容(甚至 *.com 等)。
- 效率说明: 存在更高效的方法(例如:地理位置列表)或优化条目来将 TLD 添加到黑洞中,例如使用管道 | 字符进行单行分组。
参考文献
- https://www.silentpush.com/blog/smishing-triad/
- https://krebsonsecurity.com/2025/04/china-based-sms-phishing-triad-pivots-to-banks/
- https://malpedia.caad.fkie.fraunhofer.de/actor/smishing_triad
- https://www.wired.com/story/smishing-triad-scam-group/
- https://www.resecurity.com/blog/article/smishing-triad-is-now-targeting-toll-payment-services-in-a-massive-fraud-campaign-expansion
搜集汇总
数据集介绍

构建方式
在移动安全领域,针对短信钓鱼攻击的检测研究长期面临数据稀缺的挑战。Gravity Falls数据集的构建过程体现了对现实威胁演变的系统性捕捉,其核心方法是从2022年至2025年间实际传播的短信钓鱼链接中提取域名,并依据攻击技术的演进划分为四个技术簇。数据采集结合了直接观测与基础设施分析,早期依赖WHOIS查询与被动DNS记录,后期则借助Iris Investigate等专业工具进行链路图谱分析与历史记录追溯。为形成半合成数据集,研究者将观测到的恶意域名与从Alexa Top-1M等静态榜单中随机选取的良性域名按比例混合,确保了数据在保持现实威胁特征的同时具备可衡量的基线对照。
特点
该数据集的显著特征在于其动态演进性,它完整记录了一个威胁行为体在四年间技术战术的持续演变。从2022年使用短随机字符串的初始阶段,逐步发展为2023年的词典拼接技术,再到2024至2025年采用主题化组合抢注变体,这一演进路径清晰反映了攻击者为规避检测而采用的策略升级。数据集涵盖的域名不仅包括直接观测到的恶意样本,也包含基于模式预测生成的域名,这种半合成性质使其既能代表真实威胁,又具备可扩展的研究价值。此外,每个技术簇均对应明确的攻击意图,如凭证窃取或费用欺诈,为检测模型提供了丰富的上下文信息。
使用方法
在网络安全检测模型的评估中,Gravity Falls数据集可作为衡量域生成算法检测工具泛化能力的重要基准。研究者通常将数据集按技术簇划分为实验组,并与从主流Top-1M榜单选取的对照组进行对比分析。评估时可采用传统字符串分析方法和机器学习检测器,如计算香农熵、应用Exp0se启发式检测器,或使用基于LSTM和时序卷积网络的分类模型。通过计算精确率、准确率与召回率等指标,能够系统评估不同检测工具在面对演进型DGA战术时的性能差异。该数据集的使用有助于揭示检测方法在应对混合词典词汇、品牌术语与随机化组合的新型钓鱼策略时的局限性,推动上下文感知检测框架的发展。
背景与挑战
背景概述
在移动网络安全领域,针对短信鱼叉式网络钓鱼(Smishing)的威胁日益严峻,攻击者常利用域名生成算法(DGA)动态构建恶意基础设施以规避检测。Gravity Falls数据集由达科他州立大学比肯计算机与网络科学学院的Adam Dorian Wong与John D. Hastings于2022年至2025年间创建,旨在填补现有研究空白。该数据集聚焦于移动设备上由Smishing驱动的DGA域名检测问题,通过收集真实威胁行为者在四年间演进的钓鱼活动数据,系统化呈现了从随机字符串到词典拼接及主题组合抢注的技术变迁。其核心研究在于评估传统与机器学习检测方法对新兴Smishing战术的泛化能力,为移动安全防御提供了关键的实证基准与演进视角。
当前挑战
Gravity Falls数据集所应对的核心领域挑战在于移动环境下的DGA域名检测泛化难题。现有检测器多基于恶意软件C2或电子邮件钓鱼数据集训练,难以有效识别Smishing场景中融合词典词汇、品牌术语与轻微随机化的复杂域名变体,导致在词典拼接与主题组合抢注等战术上召回率显著下降。在构建过程中,挑战体现在数据采集的连续性与一致性维护,需从短信、iMessage等多渠道提取超链接域名,并应对基础设施动态变化与模式预测的复杂性。此外,数据集的半合成性质——混合已知恶意域名与基于模式预测的域名——以及采样中的意外重复,也为评估的准确性与普适性带来了内在限制。
常用场景
经典使用场景
在移动安全与网络威胁检测领域,Gravity Falls数据集主要用于评估和比较不同域生成算法检测方法的性能。该数据集通过模拟真实短信钓鱼活动中威胁行为者不断演化的域名生成策略,为研究人员提供了一个可复现的基准测试平台。经典使用场景包括将传统启发式方法(如香农熵和Exp0se)与基于机器学习的方法(如LSTM分类器和COSSAS DGAD)进行横向对比,以检验它们在面对随机字符串、词典拼接及主题组合抢注等多样化攻击技术时的泛化能力与局限性。
实际应用
在实际网络安全防御中,Gravity Falls数据集为安全运营团队提供了评估和改进现有DGA检测管道的实证依据。基于该数据集的测试结果,防御者可以构建分层检测策略:利用快速词汇启发式方法筛选明显随机化的域名,同时结合消息内容、托管基础设施信号及品牌滥用策略等上下文信息,以应对词典拼接和主题组合抢注等高级技术。该数据集还可用于培训威胁分析师识别新兴钓鱼活动中的域名模式,并优化自动化拦截系统,从而在移动设备这一企业安全边界外的薄弱环节提升整体防护韧性。
衍生相关工作
围绕Gravity Falls数据集衍生的经典工作主要集中于改进DGA检测的鲁棒性与上下文融合能力。部分研究借鉴其揭示的检测盲区,探索将大型语言模型整合到域名分析流程中,以识别跨集群的语义主题。另有工作基于该数据集提出的战术演化框架,开发了针对词典拼接域名的子词标记化分类方法,或构建异构深度神经网络以同时处理正向与反向字符串特征。这些衍生研究共同推动了检测技术从单纯依赖字符串统计特征向融合语义理解、基础设施情报的多维分析范式转变。
以上内容由遇见数据集搜集并总结生成



