AttackER

Name: AttackER
Creator: 南安普顿大学
Published: 2024-08-10 00:10:35
License: 暂无描述

arXiv2024-08-10 更新2024-08-13 收录

下载链接：

https://zenodo.org/records/10276922

下载链接

链接失效反馈

官方服务：

资源简介：

AttackER数据集由南安普顿大学创建，专注于网络攻击归因分析，利用命名实体识别（NER）技术从网络安全文本中提取攻击归因信息。该数据集包含2640个句子，涵盖18种不同的实体类型，通过复杂的标注过程提供丰富的上下文细节。数据集的创建旨在通过自动识别各种实体，支持专家并减少归因过程的时间和资源。AttackER数据集的应用领域主要是在网络安全分析中，帮助自动提取有用信息，从而提高攻击归因的准确性和效率。

The AttackER dataset was developed by the University of Southampton, focusing on cyber attack attribution analysis. It extracts attack attribution information from cybersecurity texts using Named Entity Recognition (NER) technology. This dataset consists of 2,640 sentences covering 18 distinct entity types, and provides rich contextual details through a rigorous annotation process. The dataset was created to support cybersecurity experts and reduce the time and resources required for the attack attribution process by automatically identifying various entities. The primary application scope of the AttackER dataset is in cybersecurity analysis, where it aids in the automatic extraction of actionable information, thereby improving the accuracy and efficiency of attack attribution.

提供机构：

南安普顿大学

创建时间：

2024-08-10

搜集汇总

数据集介绍

构建方式

在网络安全领域中，攻击归因是一个至关重要的过程，它帮助专家制定针对攻击者的对策和法律行动。由于任务的复杂性，分析人员目前主要手动进行归因。本研究旨在填补这一空白，提供了一个名为AttackER的攻击归因数据集。该数据集的设计目标是从网络安全文本中提取攻击归因信息，利用自然语言处理（NLP）领域的命名实体识别（NER）方法。与现有的网络安全NER数据集不同，AttackER提供了一系列丰富的注释，包括跨越短语和句子的上下文详细信息。

特点

AttackER数据集具有以下特点：1）包含18种不同的实体类型，帮助识别网络安全文本中的各种对象；2）注释丰富，包括上下文细节，有助于深入了解攻击模式、攻击动机、影响等；3）采用了STIX 2.1框架定义实体类型，确保信息的一致性和可组织性；4）通过手动和半自动化的方法进行数据标注，保证了数据的质量和准确性。

使用方法

使用AttackER数据集的方法如下：1）数据预处理：使用文本预处理工具对收集的网络安全文本进行预处理，去除无关信息；2）数据标注：利用Prodigy工具和spaCy库进行数据标注，确保实体识别的准确性；3）模型训练：使用spaCy、Huggingface和LLM模型进行NER任务训练，以提高模型对攻击归因信息的识别能力；4）模型评估：使用精确率、召回率和F-1分数等指标评估模型性能，并进行调整和优化。

背景与挑战

背景概述

随着网络攻击的日益频繁和复杂化，对攻击者进行溯源变得尤为重要。AttackER数据集应运而生，旨在通过自然语言处理（NLP）技术，特别是命名实体识别（NER），自动提取网络安全文本中的攻击溯源信息。该数据集由南安普顿大学的研究团队创建，填补了攻击溯源领域数据集的空白，为网络安全分析师提供了自动识别实体的支持，从而减少了溯源过程的时间和资源消耗。AttackER数据集包含了18种不同的实体类型，为深入分析和研究网络安全威胁提供了丰富的信息。

当前挑战

AttackER数据集面临的主要挑战包括：1)领域问题的挑战：如何通过NLP技术准确识别网络安全文本中的关键实体，例如攻击模式、威胁行为者、受害者身份等，以支持攻击溯源过程；2)构建过程中的挑战：如何构建一个包含丰富上下文细节的NER数据集，使得模型能够学习到更鲁棒的实体识别能力。此外，由于网络安全领域的实体具有复杂性和多样性，如何有效地进行数据标注和模型训练也是一个重要的挑战。

常用场景

经典使用场景

在网络安全领域，攻击溯源是识别攻击者身份或位置的关键过程，对于制定防御策略和法律行动至关重要。AttackER数据集被设计用于从网络安全文本中提取攻击溯源信息，主要利用自然语言处理（NLP）领域的命名实体识别（NER）技术。该数据集提供了丰富的上下文细节注释，包括跨越短语和句子的注释，使得模型能够更准确地识别攻击溯源相关的实体。

实际应用

AttackER数据集在实际应用中可用于训练模型，自动从人类或机器生成的文本和报告中提取有用的洞察信息，这些信息可以用于自动化的攻击溯源工具。通过使用AttackER数据集训练的模型，安全分析师可以及时了解新的网络攻击和威胁，从而更快地响应和制定防御策略。

衍生相关工作

AttackER数据集的创建推动了网络安全领域命名实体识别技术的发展。该数据集不仅为NLP模型提供了丰富的训练数据，而且还展示了大型语言模型（LLMs）在NER任务上的潜力。未来的研究可以基于AttackER数据集探索更复杂的攻击溯源模型，以及如何利用LLMs自动提取实体之间的关系，从而为安全分析师提供更有意义的洞察信息。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集