Gizachew/cybersecurity-ner

Name: Gizachew/cybersecurity-ner
Creator: Gizachew
Published: 2024-04-10 15:19:20
License: 暂无描述

Hugging Face2024-04-10 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/Gizachew/cybersecurity-ner

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: id dtype: string - name: tokens sequence: string - name: ner_tags sequence: class_label: names: '0': B-Indicator '1': B-Malware '2': B-Organization '3': B-System '4': B-Vulnerability '5': I-Indicator '6': I-Malware '7': I-Organization '8': I-System '9': I-Vulnerability '10': O splits: - name: train num_bytes: 1197515 num_examples: 2664 - name: test num_bytes: 336600 num_examples: 717 - name: validation num_bytes: 339858 num_examples: 785 download_size: 385107 dataset_size: 1873973 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* - split: validation path: data/validation-* ---

数据集信息：特征项： - 名称：id，数据类型：字符串 - 名称：tokens，数据类型：字符串序列（Token序列） - 名称：ner_tags（命名实体识别标签序列），数据类型为序列，序列元素为类别标签，各标签对应关系如下： '0': B-指示符（B-Indicator） '1': B-恶意软件（B-Malware） '2': B-组织机构（B-Organization） '3': B-系统（B-System） '4': B-漏洞（B-Vulnerability） '5': I-指示符（I-Indicator） '6': I-恶意软件（I-Malware） '7': I-组织机构（I-Organization） '8': I-系统（I-System） '9': I-漏洞（I-Vulnerability） '10': O（其他标签）数据集划分： - 名称：训练集（train），占用字节数：1197515，样本总数：2664 - 名称：测试集（test），占用字节数：336600，样本总数：717 - 名称：验证集（validation），占用字节数：339858，样本总数：785 下载总大小：385107，数据集总存储大小：1873973 配置项： - 配置名称：默认配置（default），对应数据文件路径如下： - 训练集（train）：data/train-* - 测试集（test）：data/test-* - 验证集（validation）：data/validation-*

提供机构：

Gizachew

原始信息汇总

数据集概述

数据集特征

id: 数据类型为字符串。
tokens: 数据类型为字符串序列。
ner_tags: 数据类型为标签序列，包含以下类别：
- B-Indicator
- B-Malware
- B-Organization
- B-System
- B-Vulnerability
- I-Indicator
- I-Malware
- I-Organization
- I-System
- I-Vulnerability
- O

数据集划分

train: 包含2664个样本，数据大小为1197515字节。
test: 包含717个样本，数据大小为336600字节。
validation: 包含785个样本，数据大小为339858字节。

数据集大小

下载大小: 385107字节
总数据集大小: 1873973字节

数据文件配置

default配置下，数据文件路径如下：
- 训练集: data/train-*
- 测试集: data/test-*
- 验证集: data/validation-*

搜集汇总

数据集介绍

构建方式

在网络安全领域，命名实体识别（NER）对于威胁情报分析至关重要。Gizachew/cybersecurity-ner数据集通过精心设计，从网络安全相关文本中提取并标注实体。其构建过程涉及收集公开的网络安全报告、日志和文献，随后采用人工标注与自动化工具相结合的方式，对文本中的关键实体进行标记。标注体系遵循BIO（Begin-Inside-Outside）格式，涵盖了Indicator、Malware、Organization、System和Vulnerability等五类核心实体，确保了数据的一致性和准确性。数据集被划分为训练集、验证集和测试集，以支持模型开发与评估。

特点

该数据集在网络安全命名实体识别任务中展现出显著的专业性。其标注类别针对网络安全领域定制，包括Indicator（指标）、Malware（恶意软件）、Organization（组织）、System（系统）和Vulnerability（漏洞），这些类别精准反映了威胁情报分析的核心要素。数据集规模适中，包含数千条标注样本，平衡了数据丰富性与处理效率。标注格式采用序列标注标准，便于直接应用于主流自然语言处理框架。此外，数据已预先分割为训练、验证和测试子集，为模型训练与性能评估提供了便利。

使用方法

使用Gizachew/cybersecurity-ner数据集时，可将其直接加载至支持HuggingFace数据集的编程环境中。通过调用相关库函数，用户可以访问训练、验证和测试分割，每个样本包含文本标记序列和对应的NER标签序列。该数据集适用于训练和评估网络安全领域的命名实体识别模型，如基于BERT或LSTM的序列标注架构。在实际应用中，用户需将标签映射为模型可处理的数值格式，并可能进行数据预处理以优化性能。数据集的结构化设计使其能够无缝集成到机器学习流程中，支持从实验到部署的全周期开发。

背景与挑战

背景概述

在网络安全领域，命名实体识别（NER）技术对于自动化威胁情报分析具有关键意义。Gizachew/cybersecurity-ner数据集由研究人员Gizachew于2023年构建，旨在解决网络安全文本中关键实体的精准识别问题。该数据集专注于标注五类核心实体：指标、恶意软件、组织、系统和漏洞，涵盖了从安全报告、威胁摘要等专业文献中提取的丰富语料。通过提供结构化标注数据，该数据集推动了基于深度学习的网络安全信息提取研究，为自动化威胁检测和情报分析系统提供了重要支撑，显著提升了实体识别模型在专业领域的适用性与准确性。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题层面，网络安全文本具有高度专业性和动态演化特性，实体边界模糊且新威胁术语不断涌现，导致模型泛化能力受限；同时，标注体系需平衡细粒度分类与标注一致性，例如区分'B-Indicator'与'I-Indicator'等嵌套标签。在构建过程中，挑战源于专业语料的稀缺性与标注复杂性，需要网络安全专家参与以确保标注质量，且实体类别间存在语义重叠，如'系统'与'漏洞'实体在上下文中易产生歧义，增加了标注规范制定的难度。

常用场景

经典使用场景

在网络安全领域，命名实体识别（NER）是信息提取的关键技术，Gizachew/cybersecurity-ner数据集专为这一任务设计。该数据集通过标注文本中的安全实体，如恶意软件、漏洞、组织和系统等，为模型训练提供结构化支持。其经典使用场景包括从安全报告、威胁情报或日志中自动识别关键安全术语，从而辅助分析师快速理解威胁环境，提升信息处理效率。

实际应用

在实际应用中，Gizachew/cybersecurity-ner数据集被集成到安全运营中心（SOC）的自动化工具中，用于实时监控和分析威胁数据流。例如，它可以驱动智能系统从社交媒体、论坛或新闻中提取潜在威胁指标，帮助组织提前预警网络攻击。这种应用不仅减少了人工分析负担，还增强了威胁响应的时效性和准确性，为企业和政府机构提供了可靠的安全决策支持。

衍生相关工作

基于该数据集，衍生了一系列经典研究工作，包括改进的NER模型如BERT-CRF在安全文本上的适配，以及跨语言安全实体识别探索。这些工作扩展了数据集的适用范围，推动了迁移学习和少样本学习在网络安全领域的应用。同时，它们促进了开源安全工具的开发，为社区贡献了可扩展的框架和预训练模型，进一步丰富了安全智能生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集