AnnoCTR

github2024-04-12 更新2024-05-31 收录

下载链接：

https://github.com/boschresearch/anno-ctr-lrec-coling-2024

下载链接

链接失效反馈

官方服务：

资源简介：

AnnoCTR由400个网络威胁报告组成，这些报告描述了与威胁相关的信息，如战术、技术、行为者、工具和目标行业。报告已被领域专家标注了命名实体、时间表达式和特定于网络安全的概念。

AnnoCTR 数据集由 400 份网络威胁报告构成，这些报告详细描述了与威胁相关的各类信息，包括战术、技术、行为者、工具以及目标行业。所有报告均已由领域专家进行了标注，涵盖了命名实体、时间表达式以及网络安全领域特有的概念。

创建时间：

2024-04-11

原始信息汇总

AnnoCTR数据集概述

数据集描述

AnnoCTR数据集包含400份来自商业CTI供应商的网络威胁报告。这些报告描述了与威胁相关的信息，如战术、技术、行为者、工具和目标行业。数据集由领域专家标注，包括组织、地点、行业部门、时间表达、代码片段、黑客组织、恶意软件、工具、战术和技术等实体。

数据集结构

数据集分为三个部分：训练集、开发集和测试集，分别占60%、15%和25%的文档。训练集用于模型训练，开发集用于模型选择，测试集用于评估。

文件格式

AnnoCTR数据集提供多种文件格式，存储在不同的文件夹中，包括：

ner_bio：命名实体识别，采用典型的BIO格式。
ner_json：命名实体识别，采用流行的huggingface JSON格式。
linking：实体、战术和技术的链接，采用JSON KILT格式。
entities：包含知识图谱转储，以BLINK文件格式列出实体。
text：报告的纯文本文件。
time：时间表达，采用TimeML格式。

数据来源

报告由以下组织捐赠：

许可证

AnnoCTR数据集位于AnnoCTR文件夹中，根据Creative Commons Attribution-ShareAlike 4.0 International License（CC-BY-SA 4.0）授权。

搜集汇总

数据集介绍

构建方式

AnnoCTR数据集的构建基于400份来自商业CTI供应商的网络威胁报告。这些报告详细描述了与威胁相关的信息，如战术、技术、行为者、工具和目标行业。数据集的构建过程包括由领域专家对这些报告进行标注，涵盖命名实体、时间表达式以及网络安全特定概念。标注内容包括组织、地点、行业部门、时间表达式、代码片段、黑客团体、恶意软件、工具、战术和技术。数据集被划分为训练集、开发集和测试集，分别占60%、15%和25%，以支持模型训练、选择和评估。

特点

AnnoCTR数据集的显著特点在于其多层次的标注结构和丰富的网络安全特定概念。数据集不仅包含传统的命名实体识别（NER）标注，还提供了实体、战术和技术的链接信息，以及时间表达式的标注。此外，数据集提供了多种文件格式，包括BIO格式、Huggingface JSON格式、KILT格式和TimeML格式，以适应不同的研究和应用需求。这些特点使得AnnoCTR成为研究网络安全威胁检测和链接的宝贵资源。

使用方法

AnnoCTR数据集的使用方法多样，适用于多种自然语言处理任务。研究者可以利用训练集进行模型训练，开发集进行模型选择，测试集进行模型评估。数据集提供的多种文件格式，如BIO格式、Huggingface JSON格式、KILT格式和TimeML格式，使得研究者可以根据具体需求选择合适的格式进行数据处理和分析。此外，数据集还提供了实体链接的KG dump文件，便于进行更深入的实体关系研究。

背景与挑战

背景概述

AnnoCTR数据集由Robert Bosch GmbH及其子公司于2023年创建，旨在支持Lukas Lange等研究人员在LREC-COLING 2024会议上发表的论文《AnnoCTR: A Dataset for Detecting and Linking Entities, Tactics, and Techniques in Cyber Threat Reports》。该数据集包含400份来自商业CTI供应商的网络威胁报告，涵盖了战术、技术、行为者、工具和目标行业等威胁相关信息。通过领域专家的注释，AnnoCTR提供了组织、位置、行业部门、时间表达、代码片段、黑客组织、恶意软件、工具、战术和技术等多种实体的标注。这一数据集的创建不仅为网络安全领域的实体识别和链接提供了宝贵的资源，还为相关研究提供了标准化的数据支持。

当前挑战

AnnoCTR数据集在构建过程中面临多重挑战。首先，网络威胁报告的多样性和复杂性使得实体和概念的标注变得异常困难。其次，数据集的注释需要高度专业化的知识，以确保标注的准确性和一致性。此外，数据集的分割（训练集、开发集和测试集）需要精心设计，以保证模型训练和评估的可靠性。最后，数据集的格式多样性（如BIO格式、JSON格式、KILT格式等）增加了数据处理的复杂性，要求研究人员具备跨格式的数据处理能力。这些挑战不仅影响了数据集的构建效率，也对后续研究提出了更高的技术要求。

常用场景

经典使用场景

在网络安全领域，AnnoCTR数据集的经典使用场景主要集中在实体识别与链接任务上。该数据集通过标注400份来自商业CTI供应商的网络威胁报告，涵盖了战术、技术、行为者、工具和目标行业等关键信息。研究者可以利用这些标注数据训练和评估模型，以自动识别和链接报告中的组织、位置、行业部门、时间表达式、代码片段、黑客团体、恶意软件、工具、战术和技术等实体。

实际应用

在实际应用中，AnnoCTR数据集为网络安全分析师和情报机构提供了强大的工具支持。通过利用该数据集训练的模型，分析师可以更快速、准确地从大量网络威胁报告中提取关键信息，如攻击者的战术和技术、受影响的行业和地理位置等。这有助于提高威胁情报的时效性和准确性，从而更有效地应对和预防网络攻击。

衍生相关工作

AnnoCTR数据集的发布催生了一系列相关研究工作。例如，基于该数据集的实体识别和链接模型已被应用于多个网络安全项目中，提升了威胁情报的自动化处理能力。此外，研究者们还利用AnnoCTR数据集开发了新的评估指标和方法，以衡量模型在网络安全文本中的表现。这些工作不仅丰富了网络安全领域的研究内容，也为未来的技术发展奠定了基础。

以上内容由遇见数据集搜集并总结生成