Gizachew/cybersecurity-ner
收藏Hugging Face2024-04-10 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Gizachew/cybersecurity-ner
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: tokens
sequence: string
- name: ner_tags
sequence:
class_label:
names:
'0': B-Indicator
'1': B-Malware
'2': B-Organization
'3': B-System
'4': B-Vulnerability
'5': I-Indicator
'6': I-Malware
'7': I-Organization
'8': I-System
'9': I-Vulnerability
'10': O
splits:
- name: train
num_bytes: 1197515
num_examples: 2664
- name: test
num_bytes: 336600
num_examples: 717
- name: validation
num_bytes: 339858
num_examples: 785
download_size: 385107
dataset_size: 1873973
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
- split: validation
path: data/validation-*
---
数据集信息:
特征项:
- 名称:id,数据类型:字符串
- 名称:tokens,数据类型:字符串序列(Token序列)
- 名称:ner_tags(命名实体识别标签序列),数据类型为序列,序列元素为类别标签,各标签对应关系如下:
'0': B-指示符(B-Indicator)
'1': B-恶意软件(B-Malware)
'2': B-组织机构(B-Organization)
'3': B-系统(B-System)
'4': B-漏洞(B-Vulnerability)
'5': I-指示符(I-Indicator)
'6': I-恶意软件(I-Malware)
'7': I-组织机构(I-Organization)
'8': I-系统(I-System)
'9': I-漏洞(I-Vulnerability)
'10': O(其他标签)
数据集划分:
- 名称:训练集(train),占用字节数:1197515,样本总数:2664
- 名称:测试集(test),占用字节数:336600,样本总数:717
- 名称:验证集(validation),占用字节数:339858,样本总数:785
下载总大小:385107,数据集总存储大小:1873973
配置项:
- 配置名称:默认配置(default),对应数据文件路径如下:
- 训练集(train):data/train-*
- 测试集(test):data/test-*
- 验证集(validation):data/validation-*
提供机构:
Gizachew
原始信息汇总
数据集概述
数据集特征
- id: 数据类型为字符串。
- tokens: 数据类型为字符串序列。
- ner_tags: 数据类型为标签序列,包含以下类别:
- B-Indicator
- B-Malware
- B-Organization
- B-System
- B-Vulnerability
- I-Indicator
- I-Malware
- I-Organization
- I-System
- I-Vulnerability
- O
数据集划分
- train: 包含2664个样本,数据大小为1197515字节。
- test: 包含717个样本,数据大小为336600字节。
- validation: 包含785个样本,数据大小为339858字节。
数据集大小
- 下载大小: 385107字节
- 总数据集大小: 1873973字节
数据文件配置
- default配置下,数据文件路径如下:
- 训练集:
data/train-* - 测试集:
data/test-* - 验证集:
data/validation-*
- 训练集:
搜集汇总
数据集介绍

构建方式
在网络安全领域,命名实体识别(NER)对于威胁情报分析至关重要。Gizachew/cybersecurity-ner数据集通过精心设计,从网络安全相关文本中提取并标注实体。其构建过程涉及收集公开的网络安全报告、日志和文献,随后采用人工标注与自动化工具相结合的方式,对文本中的关键实体进行标记。标注体系遵循BIO(Begin-Inside-Outside)格式,涵盖了Indicator、Malware、Organization、System和Vulnerability等五类核心实体,确保了数据的一致性和准确性。数据集被划分为训练集、验证集和测试集,以支持模型开发与评估。
特点
该数据集在网络安全命名实体识别任务中展现出显著的专业性。其标注类别针对网络安全领域定制,包括Indicator(指标)、Malware(恶意软件)、Organization(组织)、System(系统)和Vulnerability(漏洞),这些类别精准反映了威胁情报分析的核心要素。数据集规模适中,包含数千条标注样本,平衡了数据丰富性与处理效率。标注格式采用序列标注标准,便于直接应用于主流自然语言处理框架。此外,数据已预先分割为训练、验证和测试子集,为模型训练与性能评估提供了便利。
使用方法
使用Gizachew/cybersecurity-ner数据集时,可将其直接加载至支持HuggingFace数据集的编程环境中。通过调用相关库函数,用户可以访问训练、验证和测试分割,每个样本包含文本标记序列和对应的NER标签序列。该数据集适用于训练和评估网络安全领域的命名实体识别模型,如基于BERT或LSTM的序列标注架构。在实际应用中,用户需将标签映射为模型可处理的数值格式,并可能进行数据预处理以优化性能。数据集的结构化设计使其能够无缝集成到机器学习流程中,支持从实验到部署的全周期开发。
背景与挑战
背景概述
在网络安全领域,命名实体识别(NER)技术对于自动化威胁情报分析具有关键意义。Gizachew/cybersecurity-ner数据集由研究人员Gizachew于2023年构建,旨在解决网络安全文本中关键实体的精准识别问题。该数据集专注于标注五类核心实体:指标、恶意软件、组织、系统和漏洞,涵盖了从安全报告、威胁摘要等专业文献中提取的丰富语料。通过提供结构化标注数据,该数据集推动了基于深度学习的网络安全信息提取研究,为自动化威胁检测和情报分析系统提供了重要支撑,显著提升了实体识别模型在专业领域的适用性与准确性。
当前挑战
该数据集面临的挑战主要体现在两个方面:在领域问题层面,网络安全文本具有高度专业性和动态演化特性,实体边界模糊且新威胁术语不断涌现,导致模型泛化能力受限;同时,标注体系需平衡细粒度分类与标注一致性,例如区分'B-Indicator'与'I-Indicator'等嵌套标签。在构建过程中,挑战源于专业语料的稀缺性与标注复杂性,需要网络安全专家参与以确保标注质量,且实体类别间存在语义重叠,如'系统'与'漏洞'实体在上下文中易产生歧义,增加了标注规范制定的难度。
常用场景
经典使用场景
在网络安全领域,命名实体识别(NER)是信息提取的关键技术,Gizachew/cybersecurity-ner数据集专为这一任务设计。该数据集通过标注文本中的安全实体,如恶意软件、漏洞、组织和系统等,为模型训练提供结构化支持。其经典使用场景包括从安全报告、威胁情报或日志中自动识别关键安全术语,从而辅助分析师快速理解威胁环境,提升信息处理效率。
实际应用
在实际应用中,Gizachew/cybersecurity-ner数据集被集成到安全运营中心(SOC)的自动化工具中,用于实时监控和分析威胁数据流。例如,它可以驱动智能系统从社交媒体、论坛或新闻中提取潜在威胁指标,帮助组织提前预警网络攻击。这种应用不仅减少了人工分析负担,还增强了威胁响应的时效性和准确性,为企业和政府机构提供了可靠的安全决策支持。
衍生相关工作
基于该数据集,衍生了一系列经典研究工作,包括改进的NER模型如BERT-CRF在安全文本上的适配,以及跨语言安全实体识别探索。这些工作扩展了数据集的适用范围,推动了迁移学习和少样本学习在网络安全领域的应用。同时,它们促进了开源安全工具的开发,为社区贡献了可扩展的框架和预训练模型,进一步丰富了安全智能生态。
以上内容由遇见数据集搜集并总结生成



