mrmoor/cti-corpus-raw

Name: mrmoor/cti-corpus-raw
Creator: mrmoor
Published: 2022-09-14 18:54:05
License: 暂无描述

Hugging Face2022-09-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mrmoor/cti-corpus-raw

下载链接

链接失效反馈

官方服务：

资源简介：

--- annotations_creators: - no-annotation language: - en language_creators: [] license: - unknown multilinguality: - monolingual pretty_name: cti-corpus size_categories: - 100K<n<1M source_datasets: [] tags: - cti - cybert threat intelligence - it-security - apt task_categories: - fill-mask - text-generation task_ids: - masked-language-modeling - slot-filling - language-modeling ---

annotations_creators: - 无标注 language: - 英语（English） language_creators: [] license: - 未知 multilinguality: - 单语言 pretty_name: cti-corpus size_categories: - 10万至100万 source_datasets: [] tags: - 网络威胁情报（Cyber Threat Intelligence，简称CTI） - 网络威胁情报 - IT安全 - 高级持续威胁（Advanced Persistent Threat，简称APT） task_categories: - 掩码填充 - 文本生成 task_ids: - 掩码语言建模 - 槽位填充 - 语言建模

提供机构：

mrmoor

原始信息汇总

数据集概述

基本信息

名称: cti-corpus
语言: 英语 (en)
多语言性: 单语种
许可证: 未知

规模

大小: 10万至100万条数据

任务类别

任务类型:
- fill-mask
- text-generation
具体任务:
- masked-language-modeling
- slot-filling
- language-modeling

搜集汇总

数据集介绍

构建方式

在网络安全情报领域，数据集的构建往往依赖于对公开威胁信息的系统化收集与整理。mrmoor/cti-corpus-raw数据集采用无标注方式构建，其原始文本源自网络威胁情报（CTI）相关文档，涵盖高级持续性威胁（APT）等主题。构建过程中，通过自动化流程从公开安全报告中提取英文内容，确保数据覆盖广泛的安全事件与威胁指标，形成规模介于十万至百万条之间的语料库，为后续分析提供未经人工干预的原始材料。

使用方法

使用该数据集时，研究人员可将其应用于掩码语言建模或文本生成任务，以增强模型在网络安全领域的语言理解能力。通过加载原始英文文本，用户能进行预处理如分词与向量化，进而训练模型识别威胁情报中的实体与关系。数据集适用于构建安全专用的语言模型，或作为基准测试资源，帮助评估模型在CTI场景下的性能，推动自动化威胁分析工具的发展。

背景与挑战

背景概述

在网络安全领域，网络威胁情报（CTI）的自动化处理已成为提升防御能力的关键研究方向。mrmoor/cti-corpus-raw数据集由匿名研究者或机构于近年构建，专注于收集未经标注的英文CTI原始文本，旨在支持自然语言处理技术在威胁情报分析中的应用。该数据集的核心研究问题在于如何从海量非结构化威胁报告中提取有效信息，以辅助恶意软件检测、高级持续性威胁（APT）识别等任务。其出现推动了安全领域与人工智能的交叉融合，为构建智能化的威胁感知系统提供了重要的数据基础。

当前挑战

该数据集旨在解决网络威胁情报领域文本理解的挑战，包括从复杂技术报告中自动提取实体、关系及攻击模式等结构化信息。然而，构建过程中面临多重困难：原始CTI文本常包含专业术语、缩写及非标准表述，导致语言模型难以准确解析；数据来源多样且格式不一，需进行大量清洗与归一化处理；同时，威胁情报的时效性要求数据持续更新，以反映新兴攻击手法，这增加了维护的复杂性。这些挑战共同制约了数据集的可用性与模型泛化能力。

常用场景

经典使用场景

在网络安全领域，威胁情报分析依赖于对海量非结构化文本的深度理解。mrmoor/cti-corpus-raw作为一个专注于网络威胁情报（CTI）的英文语料库，其经典使用场景在于支持自然语言处理模型进行掩码语言建模和文本生成任务。研究者利用该数据集训练模型，以自动识别和提取网络攻击报告、安全警报中的关键实体，如高级持续性威胁（APT）组织、恶意软件名称和攻击技术，从而实现对威胁情报的自动化解析与结构化表示。

解决学术问题

该数据集直接应对网络安全研究中信息过载与知识提取的挑战。它解决了从非结构化威胁报告中自动抽取实体和关系的学术问题，为构建知识图谱和威胁建模提供数据基础。其意义在于推动了基于机器学习的威胁情报分析方法的进展，使研究人员能够更高效地识别攻击模式、关联安全事件，并提升对新兴网络威胁的预测与响应能力，从而在学术层面强化了网络安全智能化的理论框架。

实际应用

在实际应用中，mrmoor/cti-corpus-raw被集成到安全运营中心（SOC）和威胁情报平台中，用于自动化处理安全日志和报告。安全分析师借助基于该数据集训练的模型，能够快速筛选和分类威胁指标，减少人工审核时间，提升事件检测的准确性与时效性。此外，它在恶意软件分析、攻击归因和风险评估等场景中发挥关键作用，助力企业及组织实现主动防御，增强整体网络安全态势感知。

数据集最近研究

mrmoor/cti-corpus-raw

数据集概述

基本信息

规模

标签

任务类别