ThreatIntelligenceSDODataSet

github2022-12-20 更新2024-05-31 收录

下载链接：

https://github.com/TJGeminiLab/ThreatIntelligenceSDODataSet

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于网络安全领域的命名实体识别任务，包含Malware和ThreatActor两种实体类别，数据量为2399，格式为训练集、测试集和验证集，数据分为两列，列与列之间用进行分隔。

This dataset is designed for the Named Entity Recognition (NER) task in the cybersecurity field. It contains two entity categories: Malware and ThreatActor, with a total of 2399 data samples. The dataset is split into three subsets: the training set, test set and validation set. The data is organized into two columns, separated by tab characters ( ).

创建时间：

2022-10-19

原始信息汇总

数据集概述

数据集用途

用于网络安全领域的命名实体识别任务。

实体类别

Malware
ThreatActor

标签列表

[B-Mal, I-Mal, B-Threat_Actor, I-Threat_Actor, B-Tool, I-Tool, O]

数据量

总计2399条数据。

数据格式

数据分为训练集、测试集和验证集。
每条数据分为两列，列间使用分隔。
第一列为文本，第二列为标签，文本和标签内部使用空格分隔。

文件列表

dataset/dev.txt: 验证集
dataset/infer.txt: 预测集
dataset/test.txt: 测试集
dataset/train.txt: 训练集
dataset/vocab.txt: 字典，包含[PAD]、[CLS]、[SEP]、[MASK]、[UNK]五个预置词。

搜集汇总

数据集介绍

构建方式

ThreatIntelligenceSDODataSet数据集的构建基于网络安全领域的命名实体识别需求，涵盖了恶意软件（Malware）和威胁行为者（ThreatActor）等关键实体类别。数据集通过人工标注和自动化工具结合的方式生成，确保了数据的准确性和多样性。数据格式采用两列制，第一列为文本，第二列为标签，两者通过制表符分隔，文本和标签内部则通过空格分隔。数据集分为训练集、测试集和验证集，便于模型训练与评估。

特点

该数据集的特点在于其专注于网络安全领域的命名实体识别，涵盖了恶意软件、威胁行为者等关键实体类别，标签体系采用BIO标注格式，包括B-Mal、I-Mal、B-Threat_Actor等标签。数据量适中，包含2399条数据，能够满足中小规模模型的训练需求。此外，数据集中预置了[PAD]、[CLS]、[SEP]等特殊词汇，便于直接应用于预训练模型的微调任务。

使用方法

使用ThreatIntelligenceSDODataSet时，用户可通过加载训练集、测试集和验证集进行模型的训练与评估。数据格式为两列制，可直接用于序列标注任务的输入。预置的词汇表（vocab.txt）包含特殊符号，便于与BERT等预训练模型结合使用。用户还可通过预测集（infer.txt）进行模型推理测试。数据集的开放性和标准化格式使其适用于多种深度学习框架，如PyTorch和TensorFlow。

背景与挑战

背景概述

ThreatIntelligenceSDODataSet数据集由北京天际友盟信息技术有限公司双子座实验室于2022年发布，旨在支持网络安全领域的命名实体识别任务。该数据集聚焦于恶意软件（Malware）和威胁行为者（ThreatActor）等关键实体的识别，涵盖了2399条标注数据，数据格式为文本与标签的对应关系。其发布为网络安全领域的研究提供了重要的数据支持，尤其在威胁情报分析和自动化威胁检测方面具有显著的应用价值。该数据集的创建不仅推动了网络安全领域的技术进步，还为相关研究提供了标准化基准。

当前挑战

ThreatIntelligenceSDODataSet数据集在解决网络安全领域的命名实体识别问题时，面临多重挑战。首先，网络安全领域的文本数据通常包含大量专业术语和缩写，实体边界模糊，增加了标注和识别的难度。其次，威胁情报的动态性和多样性使得数据集的构建需要不断更新以反映最新的威胁模式。此外，数据标注过程中需要高度专业的知识，以确保标签的准确性和一致性。这些挑战不仅影响了数据集的构建质量，也对模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

ThreatIntelligenceSDODataSet数据集在网络安全领域中被广泛应用于命名实体识别任务。通过该数据集，研究人员能够有效地识别和分类网络威胁情报中的关键实体，如恶意软件（Malware）和威胁行为者（ThreatActor）。这种识别能力对于构建自动化威胁情报分析系统至关重要，能够帮助安全专家快速定位潜在的网络威胁。

解决学术问题

该数据集解决了网络安全领域中命名实体识别的关键问题，尤其是在威胁情报分析中，如何准确识别和分类恶意软件和威胁行为者。通过提供高质量的标注数据，研究人员能够训练和优化机器学习模型，提升实体识别的准确性和效率。这不仅推动了网络安全领域的研究进展，还为实际应用中的威胁检测和响应提供了理论支持。

衍生相关工作

基于ThreatIntelligenceSDODataSet数据集，许多经典的研究工作得以展开。例如，研究人员开发了多种基于深度学习的命名实体识别模型，如BERT和BiLSTM-CRF，这些模型在网络安全领域的威胁情报分析中表现出色。此外，该数据集还催生了一系列关于威胁情报自动化和网络威胁预测的研究，进一步推动了网络安全技术的发展和应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集