ThreatCrawl
收藏arXiv2025-04-25 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2504.18375v1
下载链接
链接失效反馈官方服务:
资源简介:
本文提出了一种名为ThreatCrawl的系统,旨在通过多臂老虎机(MAB)和多种爬取策略,动态地识别和爬取与网络威胁情报(CTI)相关的网页。该系统使用SBERT嵌入技术来识别相关文档,并根据内容动态调整爬取路径。ThreatCrawl系统在爬取过程中实现分类,并且能够维持主题焦点,有效地扩展了种子集合。该数据集主要用于评估ThreatCrawl系统的有效性,其中包含了多种爬取策略组合的结果,如前向链接搜索、后向链接搜索和关键词搜索等。数据集的大小、数据量和Tokens数等信息在论文中并未提及。
This paper proposes a system named ThreatCrawl, which aims to dynamically identify and crawl webpages related to Cyber Threat Intelligence (CTI) via Multi-Armed Bandit (MAB) and various crawling strategies. This system employs SBERT embedding technology to identify relevant documents and dynamically adjust crawling paths based on content. The ThreatCrawl system performs classification during the crawling process, maintains thematic focus, and effectively expands the seed set. This dataset is primarily used to evaluate the effectiveness of the ThreatCrawl system, and contains results from multiple crawling strategy combinations, such as forward link search, backward link search, and keyword search, among others. Details such as the dataset size, data volume, and number of Tokens are not mentioned in this paper.
提供机构:
德国达姆施塔特工业大学科学与和平技术(PEASEC)
创建时间:
2025-04-25
搜集汇总
数据集介绍

构建方式
ThreatCrawl数据集通过多臂老虎机(MAB)算法和多种爬取策略构建,专注于从非结构化的网络信息中识别和收集网络威胁情报(CTI)。系统利用SBERT嵌入技术动态调整爬取路径,确保所获取的文档与预定义的主题高度相关。初始阶段,系统基于用户提供的种子URL集进行爬取,并通过优先级队列和MAB算法优化爬取顺序,最终实现了超过25%的收获率。
特点
ThreatCrawl数据集的特点在于其动态性和高效性。通过结合SBERT嵌入技术和MAB算法,系统能够在不牺牲主题相关性的前提下,将种子URL集扩展超过300%。此外,数据集还包含了大量先前未知但高度相关的安全新闻页面、数据集和域名,为网络安全研究提供了丰富的信息资源。
使用方法
ThreatCrawl数据集的使用方法主要包括三个步骤:首先,用户提供一组种子URL作为初始输入;其次,系统通过SBERT嵌入技术对爬取的文档进行语义相似性分析,确保内容与CTI主题相关;最后,利用MAB算法动态调整爬取策略,优先处理高相关性的页面。该方法特别适用于计算机应急响应团队(CERTs)和安全运营中心(SOCs)的自动化信息收集需求。
背景与挑战
背景概述
ThreatCrawl数据集由德国达姆施塔特工业大学和平与安全科学技术研究所(PEASEC)的研究团队于2025年提出,旨在解决网络安全威胁情报(CTI)领域的关键挑战。随着网络攻击日益复杂,公开的非结构化信息如博客和新闻报道中包含大量有价值的CTI,但人工监控这些来源效率低下且难以扩展。该数据集通过结合多臂老虎机(MAB)和聚焦爬虫技术,利用SBERT嵌入动态识别相关文档,显著提升了CTI的自动化收集能力。其创新性在于实现了高达25%的收获率,并将种子来源扩展了300%,同时发现了大量未知但高度相关的安全领域页面和数据集,为网络安全研究提供了重要支持。
当前挑战
ThreatCrawl面临的挑战主要集中在两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,CTI信息的非结构化特性使得自动化提取和分类变得复杂,尤其是如何从多样化的来源中准确识别威胁指标(IOCs)和攻击模式(TTPs)。此外,网络环境的动态性导致信息来源频繁变化,增加了持续监控的难度。在构建过程中,研究团队需要解决如何有效平衡爬虫的探索与利用,以及如何处理商业API的限制(如反向链接搜索的依赖性)。另一个关键挑战是语义相似性阈值的设定,过低会导致噪声增加,过高则可能遗漏重要信息。这些挑战在评估中表现为不同爬取策略(如前向、反向和关键词搜索)的性能差异,其中纯关键词搜索的收获率最低(仅2.7%),而混合策略虽优但仍受限于计算资源和模型选择(如未采用更大规模的LLM)。
常用场景
经典使用场景
在网络安全领域,ThreatCrawl数据集被广泛应用于动态爬取和识别网络上的网络威胁情报(CTI)。通过结合多臂老虎机(MAB)算法和SBERT嵌入技术,该数据集能够高效地从非结构化的新闻文章和博客中提取有价值的威胁信息,帮助安全分析师自动化地发现新的威胁源。
解决学术问题
ThreatCrawl数据集解决了网络安全研究中信息源动态变化和手动监控效率低下的问题。通过动态调整爬取路径和实时分类内容,该数据集显著提高了威胁情报的收获率(超过25%),并扩展了初始种子源的覆盖范围(超过300%),为自动化CTI收集提供了新的研究方向。
衍生相关工作
ThreatCrawl数据集衍生了一系列相关研究,包括基于SBERT的文档分类、多臂老虎机算法在动态爬取中的应用,以及网络威胁情报的自动化分析工具。这些工作进一步推动了网络安全领域在信息收集、分类和威胁预测方面的发展。
以上内容由遇见数据集搜集并总结生成



