CyberBench

github2024-11-20 更新2024-11-28 收录

下载链接：

https://github.com/jpmorganchase/CyberBench

下载链接

链接失效反馈

官方服务：

资源简介：

CyberBench是一个多任务基准，旨在评估大型语言模型在网络安全相关自然语言处理任务中的表现。它包含10个数据集，涵盖命名实体识别、摘要、多选和文本分类等任务。

CyberBench is a multi-task benchmark designed to evaluate the performance of Large Language Models (LLMs) on cybersecurity-related natural language processing (NLP) tasks. It comprises 10 datasets covering tasks such as Named Entity Recognition (NER), summarization, multiple-choice, and text classification.

创建时间：

2024-11-13

原始信息汇总

CyberBench 数据集概述

描述

CyberBench 是一个多任务基准，旨在评估大型语言模型（LLMs）在网络安全相关的自然语言处理（NLP）任务中的性能。该基准包含 10 个数据集，涵盖命名实体识别（NER）、摘要生成（SUM）、多选题（MC）和文本分类（TC）等任务。通过此基准，可以了解各种主流 LLMs 的优缺点，从而有助于开发更有效的网络安全应用模型。

数据

要生成用于评估 LLMs 的基准数据 data/cyberbench.csv，请运行以下命令： bash python src/data.py

数据集将自动下载并预处理。

模型

将 Hugging Face 模型保存在 models 文件夹中。对于 OpenAI 模型，您需要一个 OpenAI API 密钥。

评估

要使用 CyberBench 任务评估 LLM，请使用以下命令： bash python src/evaluation.py --model MODEL --embedding EMBEDDING --datasets cyberbench

请注意，MODEL 和 EMBEDDING 应与 models 文件夹中的 LLM 和嵌入名称相对应。

结果

Results

许可证

CyberBench 根据 Apache-2.0 许可证授权。有关详细信息，请参阅 LICENSE 文件。

维护级别

该存储库维护以修复错误并确保现有代码库的稳定性。请注意，团队不计划在未来引入新功能或增强功能。

引用

如果您在研究中使用了 CyberBench，请引用我们的论文： bibtex @misc{liu2024cyberbench, title={Cyberbench: A multi-task benchmark for evaluating large language models in cybersecurity}, author={Liu, Zefang and Shi, Jialei and Buford, John F}, howpublished={AAAI-24 Workshop on Artificial Intelligence for Cyber Security (AICS)}, year={2024} }

搜集汇总

数据集介绍

构建方式

CyberBench数据集的构建旨在评估大型语言模型（LLMs）在网络安全相关自然语言处理（NLP）任务中的表现。该数据集包含10个子数据集，涵盖命名实体识别（NER）、摘要生成（SUM）、多选题（MC）和文本分类（TC）等多种任务。通过整合这些任务，CyberBench提供了一个全面的评估框架，以揭示不同主流LLMs在网络安全应用中的优缺点。数据集的生成通过运行`src/data.py`脚本自动完成，确保了数据的高质量和一致性。

特点

CyberBench数据集的主要特点在于其多任务性质和针对网络安全领域的专门设计。它不仅涵盖了多种NLP任务，还特别关注这些任务在网络安全背景下的应用。此外，数据集的构建过程确保了数据的高质量和一致性，使得评估结果具有高度的可靠性和可重复性。CyberBench还提供了详细的评估框架和工具，便于研究人员和开发者快速上手并进行模型评估。

使用方法

使用CyberBench数据集进行模型评估时，首先需确保系统安装了Python 3.10或更高版本，并通过`pip install -r requirements.txt`安装必要的Python包。随后，运行`python src/data.py`生成评估数据。对于模型评估，使用`python src/evaluation.py --model MODEL --embedding EMBEDDING --datasets cyberbench`命令，其中`MODEL`和`EMBEDDING`需对应于`models`文件夹中的LLM和嵌入名称。评估结果将通过可视化方式展示，便于直观理解模型性能。

背景与挑战

背景概述

CyberBench，一个专为评估大型语言模型（LLMs）在网络安全领域自然语言处理（NLP）任务性能而设计的多任务基准，由Liu Zefang、Shi Jialei和Buford John F等研究人员于2024年创建。该数据集涵盖了命名实体识别（NER）、摘要生成（SUM）、多选题（MC）和文本分类（TC）等10个数据集，旨在揭示主流LLMs在网络安全应用中的优势与不足，从而推动更有效的模型开发。CyberBench的出现，不仅为网络安全领域的NLP研究提供了新的评估工具，还为该领域的技术进步奠定了坚实基础。

当前挑战

CyberBench在构建过程中面临多项挑战。首先，整合多个数据集以确保任务的多样性和代表性，是一项复杂且耗时的任务。其次，评估LLMs在网络安全特定任务中的表现，需要精确的标注和高质量的数据集，这增加了数据预处理的难度。此外，由于网络安全领域的特殊性，数据集的更新和维护需持续关注最新的威胁和攻击模式，以保持其时效性和实用性。尽管如此，CyberBench为研究人员提供了一个宝贵的资源，以应对这些挑战并推动该领域的发展。

常用场景

经典使用场景

在网络安全领域，CyberBench 数据集被广泛用于评估大型语言模型（LLMs）在自然语言处理（NLP）任务中的表现。该数据集涵盖了命名实体识别（NER）、摘要生成（SUM）、多选题（MC）和文本分类（TC）等多种任务，为研究人员提供了一个全面的基准，以测试和比较不同LLMs在网络安全应用中的性能。通过CyberBench，研究者能够深入了解各主流LLMs的优势与不足，从而推动更高效模型的开发。

实际应用

在实际应用中，CyberBench 数据集被用于开发和优化网络安全相关的自然语言处理模型。例如，金融机构可以利用该数据集评估和选择适合其安全需求的LLMs，以提高威胁检测和响应的效率。此外，网络安全公司也可以使用CyberBench来测试和改进其产品中的NLP功能，确保其在实际应用中的有效性和可靠性。

衍生相关工作

基于 CyberBench 数据集，研究者们开展了一系列相关工作，包括但不限于改进现有LLMs的性能、开发新的网络安全NLP任务以及探索不同模型架构在网络安全应用中的适用性。例如，有研究通过CyberBench发现并优化了特定任务中的模型瓶颈，从而提升了整体性能。此外，CyberBench 还激发了新的研究方向，如跨领域模型的迁移学习和多任务学习的应用，进一步推动了网络安全领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集