CyberMetric Dataset

github2024-02-25 更新2024-05-31 收录

下载链接：

https://github.com/cybermetric/CyberMetric

下载链接

链接失效反馈

官方服务：

资源简介：

The CyberMetric Dataset introduces a new benchmarking tool consisting of 10,000 questions designed to evaluate the cybersecurity knowledge of various Large Language Models (LLMs) within the cybersecurity domain. This dataset is created using different LLMs and has been verified by human experts in the cybersecurity field to ensure its relevance and accuracy. The dataset is compiled from various sources including standards, certifications, research papers, books, and other publications within the cybersecurity field. We provide the dataset in four distinct sizes —small, medium, big and large— comprising 80, 500, 2000 and 10,000 questions, respectively.The smallest version is tailored for comparisons between different LLMs and humans. The CyberMetric-80 dataset has been subject to testing with 30 human participants, enabling an effective comparison between human and machine intelligence.

赛博度量数据集（CyberMetric Dataset）推出了一款全新的基准测试工具，该工具包含10000道试题，旨在评估各类大语言模型（Large Language Models，LLMs）在网络安全领域的专业知识掌握程度。本数据集基于多款大语言模型构建生成，并经网络安全领域的专家学者核验，以确保试题的相关性与准确性。本数据集的试题素材源自网络安全领域的各类资料，包括行业标准、认证考核内容、学术论文、专业书籍及其他相关出版物。我们推出四种不同体量的数据集版本，分别为小型、中型、大型与特大型，对应包含80、500、2000及10000道试题。体量最小的小型版本专为不同大语言模型与人类受试者的对比测试设计。赛博度量-80数据集（CyberMetric-80 Dataset）已邀请30名人类受试者完成测试，可有效实现人类智能与机器智能的对比分析。

创建时间：

2024-02-12

原始信息汇总

CyberMetric Dataset 概述

数据集描述

目的: 评估网络安全领域中大型语言模型（LLMs）的知识水平。
内容: 包含10,000个问题，用于测试LLMs的网络安全知识。
验证: 由网络安全领域的专家进行验证，确保问题相关性和准确性。
来源: 数据集内容来源于标准、认证、研究论文、书籍及其他网络安全相关出版物。
版本: 提供四种不同大小的数据集版本，分别是80、500、2000和10,000个问题。

数据集使用

工具: 提供了一个名为CyberMetric_evaluator.py的Python脚本，用于展示如何使用数据集与OpenAI GPT结合。
示例: 脚本使用CyberMetric-80数据集的示例输出。

数据集评估

模型评估: 已评估并比较了25个最先进的LLM模型在CyberMetric数据集上的表现。

搜集汇总

数据集介绍

构建方式

CyberMetric数据集的构建采用了检索增强生成（Retrieval-Augmented Generation, RAG）技术，结合了多种大型语言模型（LLMs）的生成能力，并经过网络安全领域专家的严格验证，以确保其内容的准确性和相关性。数据来源广泛，涵盖了标准、认证、研究论文、书籍及其他网络安全领域的出版物。数据集分为四个不同规模——小型、中型、大型和超大型，分别包含80、500、2000和10000个问题，其中最小规模的CyberMetric-80已通过30名人类参与者的测试，用于人机智能的对比分析。

特点

CyberMetric数据集的特点在于其专注于网络安全领域，旨在评估大型语言模型在该领域的知识水平。数据集规模灵活，提供了从80到10000个问题的不同版本，满足不同研究需求。数据生成过程结合了人工智能与人类专家的双重验证，确保了问题的高质量和多样性。此外，数据集的设计还考虑了人机对比的需求，为研究提供了丰富的实验基础。

使用方法

使用CyberMetric数据集时，研究人员可通过提供的Python脚本`CyberMetric_evaluator.py`进行模型评估。该脚本支持与OpenAI GPT等模型的集成，用户只需在脚本中插入API密钥即可运行评估程序。脚本能够生成详细的评估结果，帮助研究人员分析模型在网络安全知识上的表现。数据集的使用方法简单高效，为相关领域的研究提供了便捷的工具支持。

背景与挑战

背景概述

随着网络安全领域的快速发展，评估大型语言模型（LLMs）在网络安全知识方面的能力成为一项重要任务。CyberMetric数据集应运而生，由Norbert Tihanyi、Mohamed Amine Ferrag等研究人员于2024年创建，旨在为LLMs在网络安全领域的知识评估提供基准工具。该数据集包含10,000个问题，涵盖标准、认证、研究论文、书籍等多种来源，并通过网络安全领域专家的验证，确保其相关性和准确性。数据集分为四个不同规模，分别为80、500、2000和10,000个问题，其中最小规模的CyberMetric-80已通过30名人类参与者的测试，为人类与机器智能的比较提供了有效依据。该数据集的研究成果已发表于2024年IEEE国际网络安全与韧性会议（IEEE CSR 2024），为网络安全领域的研究与实践提供了重要参考。

当前挑战

CyberMetric数据集在解决网络安全知识评估问题的过程中面临多重挑战。首先，如何确保问题的多样性和覆盖范围，以全面评估LLMs在网络安全领域的知识深度和广度，是一个关键问题。其次，数据集的构建依赖于检索增强生成（RAG）技术，如何在生成过程中保持问题的准确性和相关性，同时避免引入偏见或错误信息，是另一大挑战。此外，人类专家的验证过程虽然提高了数据集的质量，但也增加了时间和资源的消耗。最后，如何在不同规模的子集之间保持一致性，以确保评估结果的可靠性和可比性，也是数据集构建过程中需要克服的难题。这些挑战不仅影响了数据集的构建效率，也对其在实践中的应用提出了更高的要求。

常用场景

经典使用场景

在网络安全领域，CyberMetric数据集被广泛用于评估大型语言模型（LLMs）在网络安全知识方面的表现。该数据集包含10,000个问题，涵盖了从标准、认证到研究论文和书籍等多种来源的网络安全知识。通过使用不同规模的子集（如CyberMetric-80），研究人员能够进行LLMs与人类在网络安全知识上的对比测试，从而深入理解模型在复杂安全场景中的表现。

实际应用

在实际应用中，CyberMetric数据集被用于开发和测试网络安全相关的智能系统。例如，企业可以利用该数据集评估其内部使用的LLMs在处理安全威胁、风险管理和合规性问题上的能力。此外，该数据集还可用于培训网络安全专家，帮助他们更好地理解和应对复杂的网络安全挑战。

衍生相关工作

基于CyberMetric数据集，研究人员已经开展了多项经典工作。例如，通过该数据集，研究者们开发了新的评估框架和算法，用于提升LLMs在网络安全领域的表现。此外，该数据集还催生了一系列关于LLMs在安全知识检索和生成方面的研究，进一步推动了网络安全与人工智能的交叉领域发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集