CyberThreat-Eval Benchmark

github2026-03-13 更新2026-03-15 收录

下载链接：

https://github.com/xschen-beb/CyberThreat-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是TMLR论文《CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?》的官方数据集，包含三个阶段的内容：1. 分类 - CTI文章的优先级分配；2. 深度搜索 - 相关URL的质量和超出参考URL的额外信息；3. TI起草 - IOC/TTP提取和分析质量评分。

This dataset is the official dataset associated with the TMLR paper *CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?*, and it encompasses three distinct phases: 1. Classification: Priority assignment for CTI articles; 2. Deep Search: Quality evaluation of relevant URLs and supplementary information beyond the reference URLs; 3. TI Drafting: Quality scoring of IOC/TTP extraction and analysis.

创建时间：

2026-03-10

原始信息汇总

CyberThreat-Eval 数据集概述

基本信息

数据集名称：CyberThreat-Eval Benchmark
关联论文：CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research? (TMLR 25)
论文链接：https://openreview.net/forum?id=tiFtZHwr7O
arXiv链接：https://arxiv.org/pdf/2603.09452
Hugging Face数据集地址：https://huggingface.co/datasets/xse/CyberThreat-Eval
许可证：MIT

数据集内容与结构

数据集包含三个评估阶段，旨在评估大型语言模型在现实世界威胁研究中的自动化能力。

阶段1：分类 (Triage)

任务：对网络威胁情报（CTI）文章进行优先级分配。
数据目录：stage1_triage/priority/

阶段2：深度搜索 (Deep Search)

任务：评估相关URL的质量以及超出参考URL的额外信息。
数据目录：stage2_deep_search/
- code/
- data/
- example/

阶段3：威胁情报草稿 (TI Drafting)

任务：包含三个子任务：
1. IOC提取：从文章中提取入侵指标。
2. TTP映射：将攻击行为映射到战术、技术和程序。
3. 分析质量评分：对威胁行为者分析和根本原因分析进行评分。
数据目录：stage3_ti_drafting/
- ioc/
- ttp/
- score_evaluation/

数据获取与使用

数据集已包含在各阶段的data/目录下，基本测试无需额外下载。
每个阶段均提供了快速测试命令和详细的文档链接。

快速测试命令摘要

阶段1：分类

cd stage1_triage/priority python code/eval.py --ground_truth data/0314-articles.json --predictions predictions.json --article_type article --output results.json
阶段2：深度搜索

cd stage2_deep_search python code/eval.py --results_dir <path_to_results_dir> --output_dir similarity_analyses --test_model_name gpt-4o --api_key $OPENAI_API_KEY --api_base https://api.openai.com/v1 --workers 4
阶段3：威胁情报草稿
- IOC提取：
  
  cd stage3_ti_drafting/ioc python eval/eval_ioc.py --dataset data/IoCs.csv --prediction example/prediction/manual_ioc_predictions.json
- TTP映射：
  
  cd stage3_ti_drafting/ttp python eval/compute.py --articles data/100-days-articles.json --results example_predicted.json --ttp-mapping data/TTP_Mapping.csv
- 评分评估（威胁行为者分析）：
  
  cd stage3_ti_drafting/score_evaluation python eval/threat_actor.py --model gpt-4o --input data/0330-articles-with-rejected-score.json --output-dir output/

详细文档

阶段1：stage1_triage/priority/README.md
阶段2：stage2_deep_search/README.md
阶段3：stage3_ti_drafting/README.md
- IOC：stage3_ti_drafting/ioc/README.md
- TTP：stage3_ti_drafting/ttp/README.md
- 评分评估：stage3_ti_drafting/score_evaluation/README.md

搜集汇总

数据集介绍

构建方式

在网络安全情报分析领域，CyberThreat-Eval Benchmark的构建遵循了系统化的多阶段流程。该数据集通过整合真实的网络威胁情报文章，构建了三个核心评估阶段：首先，在优先级分类阶段，基于专家标注的威胁文章优先级标签构建了评估基准；其次，在深度搜索阶段，通过人工收集与文章主题相关的优质URL及补充信息，形成了相关性质量评估的数据基础；最后，在威胁情报草拟阶段，由安全专家手动提取攻击指标和战术技术规程，并标注分析质量评分，从而构建了结构化的威胁情报评估数据。

特点

该数据集在网络安全评估领域展现出鲜明的特色，其多阶段评估框架覆盖了威胁情报处理的全流程。数据集不仅包含丰富的真实世界威胁文章，还提供了细粒度的评估维度，如优先级分类、相关资源质量以及威胁指标提取的准确性。每个阶段均配备了详尽的评估脚本和基准数据，支持对大型语言模型在自动化威胁研究任务中的性能进行全面测评。数据集的结构化设计便于研究者针对特定任务进行定制化评估，为网络安全领域的模型能力验证提供了标准化基准。

使用方法

使用该数据集时，研究者需按照其分阶段架构进行逐步操作。每个评估阶段均设有独立的代码目录和数据文件，用户需安装相应的依赖环境并配置API密钥。评估过程通过运行各阶段提供的Python脚本实现，例如在优先级分类阶段使用eval.py脚本对比模型预测与基准数据，在深度搜索阶段通过相似性分析评估相关URL质量，在威胁情报草拟阶段则分别执行攻击指标提取、战术技术规程映射和分析质量评分等任务。数据集已预置基准数据，用户可直接运行评估脚本进行模型性能测试。

背景与挑战

背景概述

CyberThreat-Eval Benchmark 是由研究团队于2025年发表在TMLR上的一个专门用于评估大型语言模型在网络安全威胁情报领域自动化能力的数据集。该数据集旨在探究大型语言模型是否能够自动化执行真实世界中的威胁研究任务，其核心研究问题聚焦于模型在威胁情报处理的三个关键阶段——优先级分类、深度信息搜索与威胁情报草拟——的效能评估。通过构建这一多阶段评估框架，研究团队为网络安全领域提供了一个标准化的基准，推动了自动化威胁分析技术的发展，并对提升威胁响应的效率与准确性产生了深远影响。

当前挑战

该数据集所解决的领域问题在于自动化网络安全威胁情报分析，其挑战体现在模型需准确理解复杂的威胁语境、从非结构化文本中提取关键指标（如IOC和TTP）并进行优先级排序，同时确保生成的分析报告具备实际可操作性。在构建过程中，挑战主要源于高质量威胁情报数据的稀缺性、多阶段任务标注的一致性维护，以及评估指标的设计需兼顾自动化效率与专家级分析质量之间的平衡。这些挑战共同构成了在真实世界场景下实现可靠自动化威胁研究的核心障碍。

常用场景

经典使用场景

在网络安全威胁情报分析领域，CyberThreat-Eval Benchmark数据集为评估大型语言模型在自动化威胁研究任务中的性能提供了标准化测试平台。该数据集通过三阶段评估框架，即威胁文章优先级分类、深度信息检索与威胁情报草稿生成，模拟了真实世界威胁分析师从海量数据中筛选、挖掘与整合关键信息的工作流程。研究人员可利用该数据集系统性地检验模型在理解复杂网络威胁文本、提取结构化指标（如IOC与TTP）以及生成高质量分析报告方面的能力，从而推动自动化威胁情报处理技术的发展。

解决学术问题

该数据集有效解决了网络安全研究中长期存在的挑战，即如何量化评估人工智能模型在复杂、动态的威胁情报场景中的实际效用。传统方法往往依赖人工标注或简化任务，难以反映真实威胁分析的多样性与深度。CyberThreat-Eval通过引入多阶段、细粒度的评估指标，使研究者能够精准衡量模型在威胁优先级判定、关联信息发现与威胁行为建模等核心任务上的表现，为构建可靠、可解释的自动化威胁分析系统提供了坚实的实证基础，显著提升了该领域研究的科学性与可复现性。

衍生相关工作

基于CyberThreat-Eval Benchmark，学术界与工业界已衍生出一系列聚焦于自动化威胁情报的前沿研究。例如，有工作探索了结合图神经网络与大型语言模型以增强威胁关联分析的能力；另有研究利用该数据集的评估框架，提出了针对威胁行为模式（TTP）的零样本或少样本学习新方法。这些衍生工作不仅深化了对模型在网络安全领域泛化性与鲁棒性的理解，也催生了新型威胁狩猎工具与协同分析平台的设计，持续推动着智能安全防御体系的演进与完善。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集