CyberThreat-Eval Benchmark
收藏CyberThreat-Eval 数据集概述
基本信息
- 数据集名称:CyberThreat-Eval Benchmark
- 关联论文:CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research? (TMLR 25)
- 论文链接:https://openreview.net/forum?id=tiFtZHwr7O
- arXiv链接:https://arxiv.org/pdf/2603.09452
- Hugging Face数据集地址:https://huggingface.co/datasets/xse/CyberThreat-Eval
- 许可证:MIT
数据集内容与结构
数据集包含三个评估阶段,旨在评估大型语言模型在现实世界威胁研究中的自动化能力。
阶段1:分类 (Triage)
- 任务:对网络威胁情报(CTI)文章进行优先级分配。
- 数据目录:
stage1_triage/priority/
阶段2:深度搜索 (Deep Search)
- 任务:评估相关URL的质量以及超出参考URL的额外信息。
- 数据目录:
stage2_deep_search/code/data/example/
阶段3:威胁情报草稿 (TI Drafting)
- 任务:包含三个子任务:
- IOC提取:从文章中提取入侵指标。
- TTP映射:将攻击行为映射到战术、技术和程序。
- 分析质量评分:对威胁行为者分析和根本原因分析进行评分。
- 数据目录:
stage3_ti_drafting/ioc/ttp/score_evaluation/
数据获取与使用
- 数据集已包含在各阶段的
data/目录下,基本测试无需额外下载。 - 每个阶段均提供了快速测试命令和详细的文档链接。
快速测试命令摘要
-
阶段1:分类
cd stage1_triage/priority python code/eval.py --ground_truth data/0314-articles.json --predictions predictions.json --article_type article --output results.json
-
阶段2:深度搜索
cd stage2_deep_search python code/eval.py --results_dir <path_to_results_dir> --output_dir similarity_analyses --test_model_name gpt-4o --api_key $OPENAI_API_KEY --api_base https://api.openai.com/v1 --workers 4
-
阶段3:威胁情报草稿
-
IOC提取:
cd stage3_ti_drafting/ioc python eval/eval_ioc.py --dataset data/IoCs.csv --prediction example/prediction/manual_ioc_predictions.json
-
TTP映射:
cd stage3_ti_drafting/ttp python eval/compute.py --articles data/100-days-articles.json --results example_predicted.json --ttp-mapping data/TTP_Mapping.csv
-
评分评估(威胁行为者分析):
cd stage3_ti_drafting/score_evaluation python eval/threat_actor.py --model gpt-4o --input data/0330-articles-with-rejected-score.json --output-dir output/
-
详细文档
- 阶段1:
stage1_triage/priority/README.md - 阶段2:
stage2_deep_search/README.md - 阶段3:
stage3_ti_drafting/README.md- IOC:
stage3_ti_drafting/ioc/README.md - TTP:
stage3_ti_drafting/ttp/README.md - 评分评估:
stage3_ti_drafting/score_evaluation/README.md
- IOC:




