自定义评估数据集
收藏arXiv2025-08-05 更新2025-08-07 收录
下载链接:
https://github.com/Fraunhofer-FIT-DSAI/CyberGuard
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个自定义生成的评估数据集,包含多种格式的社区剧本和其对应的手动翻译的CACAO版本,用于基准测试最先进的LLM模型。数据集由多个格式的社区剧本组成,每个剧本都包含其对应的手动翻译的CACAO版本,用于评估LLM模型在将现有剧本转换为CACAO格式方面的性能。
This is a custom-generated evaluation dataset composed of community scripts in multiple formats and their corresponding manually translated CACAO versions, which is primarily used to benchmark state-of-the-art large language models (LLMs). Each script in the dataset is paired with its manually translated CACAO variant, allowing for the assessment of LLMs' performance on converting existing scripts into the CACAO format.
提供机构:
德国弗劳恩霍夫协会FIT研究所,德国亚琛工业大学
创建时间:
2025-08-05
原始信息汇总
CyberGuard数据集概述
数据集内容
- 数据集包含在
/playbooks目录中,包含以下子目录:translated:用于主流水线实验unstructured:用于主流水线实验evaluation_dataset:用于translation_script、evaluation_script和analysis路由semantic_evaluation_dataset:用于translation_script、evaluation_script和analysis路由
- 配置文件位于
playbooks/evaluation_dataset/playbooks.json
评估结果
- 评估结果存储在以下文件中:
main/gpt-4o-2024-08-06.jsonmain/gpt-4o-mini-2024-07-18.jsonmain/llama3.1.json
- 每个文件包含6个表:
translation:translation_script的结果syntactic_evaluation:evaluation_script执行syntactic流的结果syntactic_refinement:evaluation_script执行syntactic流的结果semantic_evaluation:evaluation_script执行semantic流的结果semantic_evaluation_syntactic_refinement:evaluation_script执行semantic流的结果results:analyze脚本的结果
数据规模
- 语法评估:7个案例和40个playbook,共280个翻译
- 语义评估:7个案例和10个playbook,共70个翻译
相关配置
- 案例配置位于
main/app/evaluation/cases.json - 环境变量配置示例包含
OPENAI_API_KEY等关键信息
搜集汇总
数据集介绍

构建方式
该数据集的构建过程涉及从三个主要安全厂商(Phantom、Fortinet、Demisto)收集40份结构化SOAR剧本,并从中精选10份进行人工翻译为CACAO标准格式作为基准真值。研究团队采用模块化处理流程,通过任务分解将复杂转换过程划分为元数据提取、工作流骨架构建等四个子任务,并集成语法检查器和迭代反馈机制确保输出质量。数据来源涵盖JSON、YAML等多种半结构化格式,通过人工校验确保语义保真度,最终形成包含原始剧本与标准转换结果的配对数据集。
特点
该数据集的核心特征体现在其专业领域适配性与结构复杂性上。作为首个面向CACAO剧本转换的评估基准,其独特价值在于包含多层次标注:既保留原始安全剧本的异构格式(如条件分支、并行操作等嵌套结构),又提供符合OASIS标准的机器可读CACAO 2.0版本。数据集特别强化了工作流图的语义表征,通过Damerau-Levenshtein相似度和图编辑距离等量化指标,支持对控制流保持度的细粒度评估。此外,刻意保留的语法错误模式为研究LLM的自我修正能力提供了天然测试场景。
使用方法
使用该数据集需遵循标准化评估框架。研究者可基于提供的40对剧本开展端到端转换实验,首先利用Prompt Engineering模块生成候选CACAO输出,继而通过内置语法检查器验证JSON模式合规性。语义评估阶段需加载预置的图结构真值数据,调用networkx计算标准化图编辑距离。为控制变量,建议固定温度参数为零以减少LLM随机性。数据集特别适用于消融实验设计,支持对Persona模式、知识注入等提示技术的独立效果验证。所有剧本均已脱敏处理,可直接用于商业SOAR平台集成测试。
背景与挑战
背景概述
该数据集由Fraunhofer FIT与RWTH Aachen University的研究团队于2025年构建,聚焦网络安全领域剧本(playbook)的自动化转型挑战。研究核心在于利用大语言模型(LLMs)将非结构化的网络安全响应剧本转化为标准化的CACAO格式,以解决传统剧本因格式异构导致的机器不可读、跨平台互操作性差等痛点。作为首个系统评估LLMs在网络安全流程标准化中应用的数据集,其通过包含40个多源剧本(Phantom/Fortinet/Demisto)及人工标注的CACAO参考版本,为安全编排自动化响应(SOAR)领域提供了关键基准。
当前挑战
领域挑战方面,需解决非结构化剧本中嵌套工作流、条件分支等复杂逻辑的语义精准映射问题,同时确保生成的CACAO JSON严格符合OASIS标准。构建过程中面临三重挑战:1)语义保真度控制,LLMs易在自由文本到结构化转换中产生逻辑偏差;2)多阶段任务分解的工程复杂度,需平衡子任务提示设计、语法检查器集成与迭代优化的协同;3)数据稀缺性,需人工构建高质量CACAO参考标准以支撑评估。此外,云API处理敏感安全数据引发的隐私问题,也促使研究团队探索本地化模型与混合部署方案。
常用场景
经典使用场景
在网络安全领域,自定义评估数据集被广泛用于评估和优化大型语言模型(LLM)在将传统网络安全剧本转换为标准化CACAO格式时的性能。该数据集通过包含多样化的传统剧本及其手动创建的CACAO参考版本,为研究人员提供了一个基准测试平台,用于验证模型的语法准确性和语义保真度。
解决学术问题
该数据集解决了网络安全剧本转换中的两个核心学术问题:一是如何高效地将非结构化或半结构化剧本转换为机器可读的CACAO格式,二是如何通过提示工程(Prompt Engineering)优化LLM的输出以减少语法错误并保持语义一致性。其意义在于为自动化剧本转换提供了可复现的实验基础,推动了网络安全领域的标准化和互操作性研究。
衍生相关工作
该数据集衍生了多项经典工作,例如基于提示工程的任务分解方法、CACAO语法检查器的开发,以及迭代反馈机制的优化。相关研究进一步探索了LLM在复杂控制流(如条件分支、循环结构)中的表现,并扩展至半结构化文本的转换场景,为后续研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成



