auto-labeled-corpus

github2024-05-13 更新2024-05-31 收录

下载链接：

https://github.com/stucco/auto-labeled-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个网络安全领域的自动标记文本数据集，包含自2010年起的所有CVE/NVD条目描述。此数据集最初为Stucco项目生成，但希望对领域内的其他研究者也有用。

This is an automatically labeled text dataset in the field of cybersecurity, containing all CVE/NVD entry descriptions since 2010. Originally generated for the Stucco project, it is hoped to be useful for other researchers in the field as well.

创建时间：

2013-08-22

原始信息汇总

数据集概述

数据集名称

auto-labeled-corpus

数据集描述

该数据集包含自动标注的网络安全领域文本。
数据集包括自2010年以来的所有CVE/NVD条目描述。

数据集用途

最初为Stucco项目生成，但期望对网络安全领域的其他研究者也有用。

数据集生成与引用

数据集首次在以下论文中使用：
- Bridges, Robert A., et al. "Automatic Labeling for Entity Extraction in Cyber Security.” accepted The Third ASE International Conference on Cyber Security 2014. Preprint arXiv preprint arXiv:1308.4941 (2013).
若数据集对研究有用，请引用上述论文。

数据集处理

输入

使用src/python/preprocessing/目录下的*_preprocess.py脚本获取源数据并进行预处理，生成未标注的JSON格式语料库。

处理

针对每个源数据，运行相应的*_preprocess.py脚本，随后运行匹配的*_tagging.py脚本进行标注。

输出

每个源数据将生成一个*_corpus.json文件，对应于corpus目录中的文件。

模型生成与评估

训练

使用src/python/learning/目录下的脚本从标注语料库生成模型并进行评估。
使用Apache OpenNLP进行IOB标注和领域标注的训练。

输入

使用nvd_corpus.json文件作为输入。

处理

将nvd_corpus.json转换为事件流文件，每个事件包含目标IOB标签或领域标签及空格分隔的上下文值（特征）。
使用opennlp.perceptron.PerceptronTrainer训练模型，生成IOB标注模型和领域标注模型。

输出

生成两个opennlp.perceptron.PerceptronModel对象：IOB标注模型和领域标注模型。

测试

输入

使用训练阶段生成的两个opennlp.perceptron.PerceptronModel对象。

处理

对测试集中的每个词：
- 获取该词的上下文（特征）。
- 使用相应的平均感知器模型评估给定上下文。
- 比较模型评估结果与已知标签或标签，计算准确度、精确度、召回率和F-score。

输出

生成包含测试结果的CSV文件。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于从2010年起的CVE/NVD条目描述，通过一系列预处理和标签化脚本生成。具体而言，数据集的构建过程包括从源数据中提取信息并进行预处理，随后使用特定的标签化脚本对文本进行自动标注，最终生成以json格式存储的标注语料库。这一过程依赖于多种启发式方法，确保了数据集在网络安全领域的适用性和准确性。

使用方法

使用该数据集时，首先需通过预处理脚本获取并处理源数据，生成未标注的语料库。随后，利用标签化脚本对语料库进行自动标注，生成标注后的json文件。这些标注数据可用于训练和评估模型，如使用Apache OpenNLP工具进行IOB标签和领域标签的模型训练。训练过程中，数据集被转换为事件流文件，通过平均感知器模型进行训练和测试，最终输出模型的准确性、精确度、召回率和F1分数等性能指标。

背景与挑战

背景概述

auto-labeled-corpus数据集是由Robert A. Bridges等人创建的，旨在为网络安全领域的实体提取提供自动标注的文本语料库。该数据集首次应用于2014年第三届ASE国际网络安全会议上发表的论文《Automatic Labeling for Entity Extraction in Cyber Security》。该数据集的核心研究问题是如何通过自动化方法对网络安全领域的文本进行标注，以便于后续的实体提取和分析。数据集包含了自2010年以来的CVE/NVD条目描述，并通过一系列的预处理和标注脚本生成。该数据集不仅为Stucco项目提供了支持，还为网络安全领域的研究者提供了宝贵的资源，推动了该领域自动化标注技术的发展。

当前挑战

auto-labeled-corpus数据集在构建过程中面临了多个挑战。首先，数据来源的多样性和复杂性使得预处理和标注过程变得复杂，尤其是对CVE/NVD条目的处理需要高度的技术细节和准确性。其次，自动化标注的准确性依赖于多种启发式方法，这些方法在不同场景下的表现可能存在差异，导致标注结果的不一致性。此外，数据集的维护和更新也是一个持续的挑战，特别是随着网络安全领域的快速发展，新的漏洞和威胁不断涌现，需要不断更新和扩展数据集以保持其时效性和实用性。最后，模型的训练和评估过程需要大量的计算资源和时间，如何在有限的资源下高效地生成和验证模型也是一个重要的挑战。

常用场景

经典使用场景

auto-labeled-corpus数据集在网络安全领域中被广泛应用于实体提取和自动标注任务。该数据集通过从CVE/NVD条目中提取描述信息，并使用各种启发式方法进行标注，为网络安全研究提供了丰富的训练和测试数据。其经典使用场景包括构建和评估基于IOB标签和领域标签的模型，如Apache OpenNLP中的感知器模型，以提高网络安全事件的自动化处理能力。

解决学术问题

该数据集解决了网络安全领域中实体提取和自动标注的学术研究问题。通过提供结构化的、自动标注的文本数据，研究者能够训练和验证高效的实体识别模型，从而提升网络安全事件的自动化分析和响应能力。这一研究不仅推动了网络安全技术的进步，还为相关领域的研究提供了新的数据资源和方法论支持。

实际应用

在实际应用中，auto-labeled-corpus数据集被用于开发和优化网络安全系统中的自动化工具和算法。例如，它可以用于构建和训练能够自动识别和分类网络安全威胁的模型，从而提高威胁检测的准确性和响应速度。此外，该数据集还可用于网络安全培训和教育，帮助培养新一代网络安全专家。

数据集最近研究