bnsapa/cybersecurity-ner

Name: bnsapa/cybersecurity-ner
Creator: bnsapa
Published: 2024-06-01 00:39:02
License: 暂无描述

Hugging Face2024-06-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bnsapa/cybersecurity-ner

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: id dtype: string - name: tokens sequence: string - name: ner_tags sequence: class_label: names: '0': B-Indicator '1': B-Malware '2': B-Organization '3': B-System '4': B-Vulnerability '5': I-Indicator '6': I-Malware '7': I-Organization '8': I-System '9': I-Vulnerability '10': O splits: - name: train num_bytes: 1197515 num_examples: 2664 - name: test num_bytes: 336600 num_examples: 717 - name: validation num_bytes: 339858 num_examples: 785 download_size: 385026 dataset_size: 1873973 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* - split: validation path: data/validation-* license: apache-2.0 task_categories: - token-classification ---

数据集信息：特征： 1. 字段名：id，数据类型：字符串 2. 字段名：tokens，数据类型：Token序列（字符串序列） 3. 字段名：ner_tags（命名实体识别标签，Named Entity Recognition tags, NER），数据类型为序列类型，其类别标签对应关系如下： '0'：B-Indicator（Indicator） '1'：B-Malware（Malware） '2'：B-Organization（Organization） '3'：B-System（System） '4'：B-Vulnerability（Vulnerability） '5'：I-Indicator（Indicator） '6'：I-Malware（Malware） '7'：I-Organization（Organization） '8'：I-System（System） '9'：I-Vulnerability（Vulnerability） '10'：O（其他类别，Outside）数据集划分： - 训练集（train）：占用字节数1197515，样本总量2664 - 测试集（test）：占用字节数336600，样本总量717 - 验证集（validation）：占用字节数339858，样本总量785 下载总大小：385026 数据集总大小：1873973 配置项： - 默认配置（default）：数据文件路径对应划分如下： - 训练集：对应路径为data/train-* - 测试集：对应路径为data/test-* - 验证集：对应路径为data/validation-* 许可证：Apache-2.0 任务类别：Token分类（token-classification）

提供机构：

bnsapa

原始信息汇总

数据集概述

数据特征

id: 数据类型为字符串。
tokens: 序列类型，数据类型为字符串。
ner_tags: 序列类型，包含以下类别标签：
- 0: B-Indicator
- 1: B-Malware
- 2: B-Organization
- 3: B-System
- 4: B-Vulnerability
- 5: I-Indicator
- 6: I-Malware
- 7: I-Organization
- 8: I-System
- 9: I-Vulnerability
- 10: O

数据分割

train: 包含2664个样本，总字节数为1197515。
test: 包含717个样本，总字节数为336600。
validation: 包含785个样本，总字节数为339858。

数据集大小

下载大小: 385026字节
数据集大小: 1873973字节

配置

default: 数据文件路径如下：
- train: data/train-*
- test: data/test-*
- validation: data/validation-*

许可证

apache-2.0

任务类别

token-classification

搜集汇总

数据集介绍

构建方式

bnsapa/cybersecurity-ner数据集的构建，是通过收集并标注网络安全领域相关的文本资料，以实现命名实体识别的任务。数据集涵盖安全指示符、恶意软件、组织、系统漏洞等类别，并以字级别的标注形式，对文本中的每个单词或词汇进行实体类别划分，形成序列化的标注数据。构建过程中，数据被分为训练集、测试集和验证集，确保模型训练的有效性和泛化能力。

特点

该数据集具有以下显著特点：首先，它专注于网络安全领域，对于特定领域的研究和应用具有高度针对性；其次，数据集采用了细致的序列标注形式，能够满足对文本中实体边界精确识别的需求；最后，其多样化的实体类别，使得该数据集在命名实体识别任务中具有较高的实用价值和广泛性。

使用方法

在使用bnsapa/cybersecurity-ner数据集时，用户可以根据HuggingFace提供的配置文件，轻松加载训练、测试和验证数据。通过遵循Apache-2.0协议，用户可以合法地利用这些数据进行模型训练、评估及研究，为网络安全领域的文本分析提供强有力的数据支持。

背景与挑战

背景概述

在网络安全领域，实体识别是关键任务之一，它关乎于从非结构化文本中提取出有关安全事件的关键信息。bnsapa/cybersecurity-ner数据集应运而生，旨在为网络安全实体识别研究提供高质量的标注数据。该数据集由网络安全领域的专家构建于近年，包含了指示器、恶意软件、组织、系统、漏洞等实体的标注信息。数据集涵盖了训练、测试和验证三个部分，共计三千余个样本，其构建旨在推动网络安全文本分析技术的发展，对相关领域产生了显著影响。

当前挑战

该数据集在构建和应用过程中面临多重挑战。首先，网络安全领域文本的复杂性使得实体识别任务充满挑战，特别是在处理专业术语和隐蔽性强的攻击策略描述时。其次，构建过程中，数据标注的质量控制和一致性保证是一大难题，这直接关系到模型训练的效率和效果。此外，随着网络安全威胁的不断发展，数据集的时效性和更新也成为了持续关注的问题。

常用场景

经典使用场景

在信息安全领域，bnsapa/cybersecurity-ner数据集被广泛应用于实体识别任务中，其核心用途在于将文本中的关键元素如安全指标、恶意软件、组织、系统及漏洞等标注出来，为后续的威胁情报分析、安全事件监测等提供基础数据支撑。

衍生相关工作

基于此数据集，衍生出了一系列相关工作，如网络安全文本的自动摘要、情感分析、以及安全事件的预测和预警等。这些工作进一步拓宽了网络安全研究的深度和广度，为网络安全防护提供了更多的理论依据和技术手段。

数据集最近研究