SecBench

Name: SecBench
Creator: 香港理工大学, 腾讯安全科恩实验室, 腾讯朱雀实验室, 腾讯安全平台部
Published: 2025-01-06 15:22:50
License: 暂无描述

arXiv2025-01-06 更新2025-01-02 收录

下载链接：

https://zenodo.org/records/14575303

下载链接

链接失效反馈

官方服务：

资源简介：

SecBench是一个多维度的基准测试数据集，旨在评估大型语言模型（LLMs）在网络安全领域的表现。该数据集由香港理工大学和腾讯实验室联合创建，包含44,823个多项选择题（MCQs）和3,087个简答题（SAQs），涵盖了中文和英文两种语言，以及知识保留和逻辑推理两个能力水平。数据集的内容来源于公开数据源和网络安全问题设计竞赛，经过GPT-4的自动标注和评分处理。SecBench的应用领域主要是网络安全，旨在解决现有基准测试数据不足、问题形式单一的问题，为LLMs在网络安全领域的性能评估提供全面支持。

SecBench is a multi-dimensional benchmark dataset aimed at evaluating the performance of Large Language Models (LLMs) in the cybersecurity domain. It was jointly developed by The Hong Kong Polytechnic University and Tencent Labs, comprising 44,823 multiple-choice questions (MCQs) and 3,087 short-answer questions (SAQs). The dataset covers two languages (Chinese and English) and two competency levels: knowledge retention and logical reasoning. Its content is sourced from public data resources and cybersecurity problem design competitions, and has undergone automatic annotation and scoring via GPT-4. Primarily applied in the cybersecurity field, SecBench addresses the shortcomings of insufficient existing benchmark datasets and single-form question structures, providing comprehensive support for performance evaluation of LLMs in the cybersecurity domain.

提供机构：

香港理工大学, 腾讯安全科恩实验室, 腾讯朱雀实验室, 腾讯安全平台部

创建时间：

2024-12-30

搜集汇总

数据集介绍

构建方式

SecBench数据集的构建过程分为两个主要阶段。首先，从公开资源中收集高质量的多项选择题（MCQs），并通过自动化工具提取问题和答案，初步构建了包含10,551个MCQs的数据集。随后，通过组织网络安全问题设计竞赛，进一步扩展数据集，收集了34,272个MCQs和3,087个简答题（SAQs）。为确保数据的准确性和一致性，使用GPT-4对数据进行标注，并根据问题的难度和所属领域进行分类。最终，SecBench数据集包含44,823个MCQs和3,087个SAQs，涵盖了网络安全领域的多个子领域和不同能力层次。

特点

SecBench数据集具有多维度的特点，涵盖了多种问题形式（MCQs和SAQs）、不同能力层次（知识保留和逻辑推理）、多种语言（中文和英文）以及多个网络安全子领域。数据集中的问题设计旨在全面评估大语言模型在网络安全领域的表现，特别是通过SAQs的形式，要求模型生成自己的答案，从而更深入地测试其推理和知识应用能力。此外，数据集的语言分布以中文为主，但也包含一定比例的英文问题，确保了其在多语言环境下的适用性。

使用方法

SecBench数据集的使用方法主要包括两个部分：MCQs和SAQs的评估。对于MCQs，评估过程较为直观，通过比较模型选择的答案与正确答案是否一致来判断其正确性。对于SAQs，评估过程更为复杂，使用GPT-4o-mini作为评分代理，自动对模型的答案进行评分。评分代理根据问题的题干、标准答案以及模型的预测答案，生成相应的分数。通过这种方式，SecBench能够全面、客观地评估大语言模型在网络安全领域的表现，并为模型的改进提供有价值的参考。

背景与挑战

背景概述

SecBench是由香港理工大学与腾讯安全科恩实验室、腾讯朱雀实验室等机构联合开发的一个多维度基准测试数据集，旨在评估大型语言模型（LLMs）在网络安全领域的表现。该数据集于2024年提出，由Pengfei Jing、Mengyun Tang等研究人员主导构建。SecBench的创建背景源于现有基准测试（如MMLU、C-Eval和HumanEval）在网络安全等专业领域的不足，尤其是数据量有限和问题形式单一（如过度依赖选择题）。SecBench通过引入多种问题形式（选择题和简答题）、不同能力层次（知识记忆与逻辑推理）、多语言（中文与英文）以及多个子领域，填补了这一空白。数据集构建过程中，研究人员通过开放数据源收集高质量问题，并组织了网络安全问题设计竞赛，最终形成了包含44,823道选择题和3,087道简答题的庞大数据集。SecBench的推出为网络安全领域的LLMs评估提供了全面且细致的基准，推动了该领域的研究与应用。

当前挑战

SecBench在解决网络安全领域LLMs评估问题时面临多重挑战。首先，现有基准测试在网络安全领域的覆盖范围有限，数据量不足且问题形式单一，难以全面评估模型的复杂推理能力。其次，构建过程中，研究人员需确保数据的高质量与多样性，这涉及从开放数据源中筛选有效信息，并通过竞赛机制收集专业问题。此外，简答题的自动评估是一个技术难点，需设计高效的评分代理以确保评估的准确性与一致性。SecBench通过引入GPT-4进行数据标注和GPT-4o-mini作为评分代理，部分解决了这些问题，但仍需进一步优化以应对更大规模和多语言场景下的评估需求。

常用场景

经典使用场景

SecBench数据集在网络安全领域的大语言模型（LLM）评估中具有广泛的应用。其经典使用场景包括对LLM在知识保留和逻辑推理能力上的多维度测试。通过包含多种题型（如选择题和简答题）和多语言（中文和英文）的设计，SecBench能够全面评估LLM在网络安全子领域中的表现。该数据集的使用不仅限于学术研究，还被广泛应用于企业内部的模型性能评估和优化。

衍生相关工作

SecBench的推出催生了一系列相关研究工作，特别是在网络安全领域的LLM评估和优化方面。基于SecBench，研究者开发了多种新的评估方法和模型优化策略。例如，一些研究利用SecBench的多维度数据，提出了针对网络安全任务的模型微调方法。此外，SecBench还激发了跨语言模型评估的研究，推动了多语言LLM在网络安全领域的应用和发展。

数据集最近研究