phishing-email-training-dataset

Hugging Face2025-12-05 更新2025-12-06 收录

下载链接：

https://huggingface.co/datasets/nosadaniel/phishing-email-training-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于训练大型语言模型（LLMs）在电子邮件安全和钓鱼分析领域的指令遵循数据。数据集通过指令数据生成器生成，该生成器将提示模板应用于原始电子邮件数据，并从各种LLMs收集响应，从而为专注于网络安全的对话式AI模型创建高质量的训练数据。数据集由Montimage策划，语言为英语，采用MIT许可，任务为电子邮件钓鱼检测和网络安全分析，格式为对话式指令遵循（人机配对）。

创建时间：

2025-12-04

原始信息汇总

数据集概述

基本信息

数据集名称: Phishing Email Training Dataset
维护者/机构: Montimage
语言: 英语 (English)
许可证: MIT License
任务类别: 文本生成、文本分类
标签: 电子邮件、安全、网络钓鱼、合成数据、指令遵循

数据集描述

本数据集包含用于在电子邮件安全和网络钓鱼分析领域训练大语言模型的指令遵循数据。数据集旨在开发能够输出结构化JSON电子邮件分析的模型，以识别威胁、风险级别和具体的入侵指标。

直接用途

微调大语言模型: 训练模型使其能够作为专业的安全分析师，检测网络钓鱼企图并提供详细、结构化的解释。
网络安全研究: 用于分析网络钓鱼攻击趋势，并评估基于人工智能的检测系统的有效性。
教育目的: 为培训人类分析师如何发现和阐明网络钓鱼指标生成示例。

数据来源与生成

源数据: 源自CEAS-08电子邮件数据集（200个平衡样本）。
生成器模型: gpt-oss-120b。
生成过程:
1. 从CEAS-08数据集中提取原始电子邮件。
2. 应用用于电子邮件分析的特定领域模板。
3. 使用gpt-oss-120b生成高质量的指令响应。

数据集结构

数据集为JSONL格式。每个条目包含训练对（prompt, response）以及用于验证和过滤的元数据。

数据字段说明

训练字段:
- prompt: 需要分析的输入指令和电子邮件内容。
- response: 来自AI助手的预期高质量JSON分析和解释。
验证与元数据字段:
- model, provider, model_config: 用于生成合成数据的模型相关信息。
- quality_score, confidence: 指示生成响应质量和确定性的指标。
- is_valid: 布尔标志，指示条目是否通过验证检查。
- label: 源数据集中的原始真实标签（例如，0表示正常邮件，1表示网络钓鱼邮件）。

数据实例

一个典型的数据实例包含一个要求分析电子邮件的提示，以及一个结构化的JSON响应，其中包含is_phishing、confidence_score、threat_type、risk_level、indicators、mitigation_recommendations和analysis_summary等字段。

作者与联系

作者: Montimage（电子邮件安全研究部门、AI/ML工程团队、网络安全领域专家）
联系邮箱: developer@montimage.com
问题反馈: https://github.com/montimage/instruction-data-generator/issues

搜集汇总

数据集介绍

构建方式

在网络安全领域，高质量的标注数据对于训练具备专业分析能力的大型语言模型至关重要。该数据集的构建过程采用了系统化的合成生成方法，首先基于CEAS-08电子邮件数据集中的200个平衡样本作为原始数据源。通过一套精心设计的指令数据生成流程，将针对电子邮件分析的领域特定提示模板应用于原始邮件内容，并利用gpt-oss-120b等大型语言模型生成结构化的高质量回应。这一过程不仅生成了提示-回应对，还伴随了详尽的元数据，包括生成模型信息、质量评分和置信度等，确保了训练数据的可靠性与可追溯性。

特点

本数据集的核心特征在于其专为网络安全与钓鱼邮件分析任务而设计的指令跟随格式。每条数据实例均包含一个要求模型扮演高级安全分析师的提示，以及一个以严格JSON结构输出的回应，详细阐述了钓鱼判定、置信度、威胁类型、风险等级、具体威胁指标及缓解建议。这种结构化的输出设计使得模型能够学习进行系统化、可解释的安全分析。此外，数据集附带的丰富元数据，如质量评分和有效性标志，为数据筛选与模型训练过程提供了精细的质量控制维度。

使用方法

该数据集主要用于微调大型语言模型，使其具备专业的电子邮件安全威胁检测与解释能力。使用者可直接利用数据集中的‘prompt’和‘response’字段作为标准的指令微调训练对。在训练过程中，可依据‘quality_score’和‘is_valid’等元数据对样本进行过滤，以选取高质量的训练实例。完成微调的模型能够接收电子邮件内容，并输出格式化的JSON分析报告，适用于自动化钓鱼邮件检测、网络安全研究以及安全分析师培训等实际场景。

背景与挑战

背景概述

随着网络钓鱼攻击的日益复杂化，传统基于规则或浅层机器学习的安全检测方法已难以应对高度动态的威胁环境。在此背景下，由Montimage公司于近年创建的钓鱼邮件训练数据集应运而生，旨在为大型语言模型提供高质量的指令跟随数据，专门用于电子邮件安全与钓鱼分析领域。该数据集源自CEAS-08电子邮件基准数据，通过先进的生成模型gpt-oss-120b合成，其核心研究问题聚焦于如何训练人工智能模型成为专业的网络安全分析师，使其不仅能准确识别钓鱼企图，还能提供结构化、可解释的威胁分析。这一努力显著推动了人工智能在网络安全领域的应用深度，为构建具备专家级分析能力的对话式AI系统奠定了数据基础。

当前挑战

该数据集致力于解决电子邮件钓鱼检测这一关键网络安全问题的挑战，具体包括钓鱼邮件在语义、风格和上下文上的高度伪装性，以及攻击手段的快速演变导致的模型泛化能力不足。在构建过程中，挑战主要源于如何从有限的原始数据中生成高质量、多样化的指令-响应对，确保合成数据既覆盖广泛的攻击模式，又保持逻辑一致性和领域专业性。同时，评估生成响应的质量与可信度，并有效整合元数据以支持模型训练与验证，亦是数据集构建中需要克服的技术难点。

常用场景

经典使用场景

在网络安全领域，钓鱼邮件检测一直是防范网络攻击的关键环节。该数据集通过提供结构化的指令遵循数据，专门用于微调大型语言模型，使其能够模拟专业安全分析师的角色，对电子邮件内容进行深度分析，识别潜在的钓鱼威胁，并生成详细的JSON格式报告。这种经典使用场景不仅提升了模型在特定领域的专业化能力，还为自动化安全审计系统奠定了数据基础。

解决学术问题

该数据集有效解决了网络安全研究中钓鱼邮件检测模型训练数据稀缺且标注成本高昂的学术难题。通过合成高质量的指令数据，它支持模型学习复杂的威胁识别逻辑与结构化输出生成，促进了基于生成式人工智能的网络安全分析方法的发展。其意义在于为学术界提供了可复现的实验基准，推动了跨领域（自然语言处理与网络安全）的融合研究，增强了AI系统在真实威胁环境中的解释性与可靠性。

衍生相关工作

围绕该数据集，衍生了一系列经典研究工作。例如，基于其指令数据格式，研究者开发了专注于多轮对话的钓鱼检测模型，增强了交互式分析能力。同时，有工作利用其合成数据策略，构建了针对新兴钓鱼手法（如商业邮件欺诈）的扩展数据集。这些衍生工作不仅深化了生成式AI在安全领域的应用，还催生了新的评估框架，用于衡量模型在复杂威胁场景下的泛化性能与鲁棒性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集