CyberNER
收藏arXiv2025-10-30 更新2025-11-01 收录
下载链接:
https://cyberner.org
下载链接
链接失效反馈官方服务:
资源简介:
CyberNER是一个大规模、统一的网络安全命名实体识别(NER)语料库,通过系统地统一四个主要数据集(CyNER、DNRTI、APTNER和Attacker)到STIX 2.1标准创建。我们的原则性方法解决了语义歧义,并将超过50个不同的源标签合并为21个一致的实体类型。我们的实验表明,在CyberNER上训练的模型取得了实质性的性能提升,与简单的连接基线相比,相对F1分数提高了大约30%。通过公开发布CyberNER语料库,我们提供了一个关键的标准化基准,使创建和严格比较更健壮和通用的实体提取模型成为可能,从而为网络安全领域做出贡献。
CyberNER is a large-scale, unified cybersecurity named entity recognition (NER) corpus developed by systematically unifying four primary datasets (CyNER, DNRTI, APTNER, and Attacker) to the STIX 2.1 standard. Our principled approach resolves semantic ambiguities and consolidates over 50 distinct source labels into 21 consistent entity types. Our experiments demonstrate that models trained on CyberNER achieve substantial performance improvements, with a relative F1 score increase of approximately 30% compared to a simple concatenation baseline. By publicly releasing the CyberNER corpus, we provide a critical standardized benchmark that enables the creation and rigorous comparison of more robust and generalizable entity extraction models, thereby contributing to the cybersecurity domain.
提供机构:
Mohammed VI Polytechnic University (UM6P), Deloitte Morocco Cyber Center, Deloitte Conseil
创建时间:
2025-10-30
搜集汇总
数据集介绍
构建方式
在网络安全命名实体识别领域,CyberNER通过系统化整合四个主流数据集(CyNER、DNRTI、APTNER和Attacker)构建而成。该过程采用基于STIX 2.1标准的统一分类法,通过语义消歧和映射规则将50余种原始标签归并为21类实体类型,并统一转换为BIO标注格式。最终形成的语料库包含60.9万标记,以CoNLL格式呈现,确保了标注体系的结构一致性与语义连贯性。
特点
CyberNER作为网络安全领域首个基于STIX标准的统一标注语料库,其核心特征体现在多维度融合与标准化设计。语料库涵盖威胁行为者、恶意软件、攻击模式等21类实体,注释密度达16.93%,且实体分布呈现真实场景下的不均衡特性。通过整合技术指标报告、高级持续性威胁分析等不同来源文本,该数据集兼具语义广度与领域深度,其STIX对齐特性更直接支持威胁情报平台的标准化数据交互。
使用方法
该数据集适用于训练和评估网络安全领域的命名实体识别模型,支持基于Transformer-CRF架构的深度学习方法的直接应用。研究人员可通过加载标准化CoNLL格式数据,采用分层学习率与早停策略进行模型优化。在评估阶段需采用实体级微平均F1值作为核心指标,同时结合句子级实体召回率等多维度度量,以全面衡量模型在复杂网络安全文本中的泛化能力与信息提取完整性。
背景与挑战
背景概述
CyberNER数据集于2025年由穆罕默德六世理工大学与德勤网络安全中心联合发布,旨在解决网络安全命名实体识别领域长期存在的标注模式碎片化问题。该研究团队通过系统整合CyNER、DNRTI、APTNER和Attacker四个权威数据集,构建了基于STIX 2.1标准的统一语料库,将原有50余种异构标签映射为21个标准化实体类型。这项创新工作显著提升了网络安全威胁情报自动抽取的准确性与模型泛化能力,为构建可互操作的网络安全知识图谱奠定了数据基础。
当前挑战
在解决网络安全实体识别核心问题时,面临标注模式异构性导致的模型泛化障碍,具体表现为不同数据集对同类实体采用相异标签定义与粒度划分。构建过程中需克服语义歧义消解的技术难题,包括处理源数据集间实体类型数量差异(5至23类不等)、标签格式不兼容(BIO与BIOES混用)以及细粒度概念向STIX标准的映射冲突。此外还需平衡标注密度差异(16.93%整体标注率)与实体类别分布不均衡对模型训练带来的影响。
常用场景
经典使用场景
在网络安全威胁情报分析领域,CyberNER数据集常被用于训练和评估命名实体识别模型,以自动化提取非结构化文本中的关键安全实体。该数据集整合了多个异构标注资源,通过STIX 2.1标准统一了实体类型,为模型提供了涵盖威胁行为者、恶意软件、漏洞指标等21类实体的丰富标注数据,显著提升了实体识别的准确性和泛化能力。
解决学术问题
CyberNER有效解决了网络安全命名实体识别中因标注模式异构导致的模型性能下降问题。通过系统化映射不同数据集的标签至统一STIX框架,该数据集消除了语义歧义,避免了朴素合并带来的标签噪声,使得模型在复杂多源数据上实现了约30%的相对F1分数提升,为构建可互操作且鲁棒的实体提取系统奠定了数据基础。
衍生相关工作
基于CyberNER的标准化基准,衍生出多项经典研究,包括采用BERT-CRF等Transformer架构的实体识别模型优化,以及面向多源泛化的训练策略探索。这些工作进一步推动了领域自适应预训练模型(如SecureBERT、CySecBERT)的发展,并为关系抽取与知识图谱构建等高阶任务提供了可扩展的数据基础。
以上内容由遇见数据集搜集并总结生成



