Phishing and Spam Email DataSet

github2025-11-21 更新2025-12-18 收录

下载链接：

https://github.com/DataPhish/PhishingSpamDataSet

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个多层次的开放科学数据集，用于钓鱼、垃圾邮件和合法邮件的分析，包含情感、动机和语义标签。数据集包括人类编写的钓鱼、垃圾邮件和合法邮件，以及由多种LLM生成的邮件，还包含情感和动机标签、重述/改写的变体以及Claude 3.5 Sonnet的分类结果。

This is a multi-level open science dataset dedicated to the analysis of phishing, spam, and legitimate emails, which encompasses sentiment, motivational, and semantic labels. The dataset includes human-written phishing, spam, and legitimate emails, as well as emails generated by multiple large language models (LLMs), alongside sentiment and motivational labels, paraphrased/rephrased variants, and classification results from Claude 3.5 Sonnet.

创建时间：

2025-11-20

原始信息汇总

PhishingSpamDataSet 数据集概述

数据集简介

这是一个用于网络钓鱼、垃圾邮件和合法邮件分析的多层开放科学数据集，包含情感、动机和语义标签。该数据集专为基于大语言模型（LLM）的电子邮件安全研究而设计，涵盖钓鱼检测、垃圾邮件分析、情感操纵以及转述下的自动化鲁棒性评估。

数据集内容

主要数据文件

merged_emails_with_categories.jsonl：包含以下信息：
- 真实类别（Phishing, Spam, Valid）
- 邮件来源（人工撰写 vs. LLM生成）
- 转述来源（GPT-4o, DeepSeek, RandomAPI, Manual）
- 情感标签（紧迫感、恐惧、权威等）
- 动机标签（点击链接、窃取凭证等）
- Claude 3.5 Sonnet 预测的分类结果

邮件构成

人工撰写的钓鱼、垃圾和合法邮件
LLM生成的邮件（来自 GPT-4o, DeepSeek-Chat, Grok, Llama 3.3, Gemini, Nova, Mistral 等模型）
由三个独立的LLM流程生成的转述/改述变体

研究方法

1. 数据集构建

从开源语料库和精选的钓鱼邮件库收集人工撰写的邮件
为增加多样性而生成LLM邮件
通过三个流程进行转述：
- DeepSeek-Chat
- GPT-4o
- OpenRouter 多模型流程（Gemini, Nova, Grok, Llama, Mistral 等）

2. 情感与动机标注

评估了四种LLM：GPT-4o-mini、GPT-4.1-mini、Claude 3.5 Sonnet、DeepSeek-Chat
评估指标包括：严格准确率、近似准确率、杰卡德相似度、5次独立运行的内部一致性、精确率与召回率
由于与人工标注匹配度最高，选择 Claude 3.5 Sonnet 进行全数据集标注

3. 邮件分类

使用 Claude 3.5 Sonnet 进行最终分类，依据：邮件正文、主题行、发件人元数据、URL和附件指示符
评估方式：
- 严格分类（钓鱼 / 垃圾邮件 / 合法）
- 宽松分类（非期望邮件 vs. 合法邮件）
- 对三个转述流程的鲁棒性

关键发现

情感与动机分析

Claude 3.5 Sonnet 表现：
- 杰卡德相似度 = 0.60
- 近似准确率 = 42%
动机检测更难，但顶级模型能达到53–61%的近似准确率
LLM经常推断出超出人工标注的额外合理动机

邮件分类性能

在所有邮件组（原始、DeepSeek转述、GPT-4o转述、RandomAPI）中：

严格准确率：约 66–67%
宽松准确率：约 69–70%
钓鱼邮件检测效果优异（F1 ≈ 0.93）
垃圾邮件检测效果较弱（F1 ≈ 0.20–0.23）
合法邮件分类效果中等（F1 ≈ 0.63）

对转述的鲁棒性

与原始邮件的最大偏差：

严格准确率偏差：0.55 个百分点
宽松准确率偏差：0.54 个百分点
转述对分类器性能影响极小

配套资源

脚本

accuracy_validation.py：情感与动机检测基准测试
category.py：邮件分类流程
stats.py：计算严格/宽松准确率、混淆矩阵、转述鲁棒性

可复现性

运行 stats.py 可生成：

严格和宽松准确率
混淆矩阵
按组别的指标
转述鲁棒性分析
可供出版物使用的 LaTeX 格式表格

数据获取与用途

所有模板、数据集和源代码均已公开发布，旨在支持AI辅助电子邮件安全领域的可复现研究。

搜集汇总

数据集介绍

构建方式

在网络安全领域，钓鱼邮件和垃圾邮件的威胁日益复杂，尤其是大型语言模型被滥用于生成欺骗性内容。该数据集的构建采用了多层次的方法，首先整合了来自开源语料库和精选钓鱼邮件库的人工撰写邮件，以覆盖真实场景中的多样性。随后，利用多种先进的大型语言模型（如GPT-4o、DeepSeek-Chat、Grok、Llama 3.3、Gemini、Nova和Mistral等）生成补充邮件，以增强数据集的广度和代表性。为了评估分类器的鲁棒性，数据集还通过三个独立的LLM管道（包括DeepSeek-Chat、GPT-4o和OpenRouter多模型管道）对邮件进行重述或改写，确保内容在语义和情感上的变化得到充分体现。最终，通过Claude 3.5 Sonnet模型进行情感和动机标签的标注，该模型在人类标注匹配度上表现最优，为数据集提供了可靠的多维度注释。

特点

该数据集的特点在于其丰富性和多维度标注，专为基于大型语言模型的电子邮件安全研究设计。它涵盖了钓鱼邮件、垃圾邮件和合法邮件三大类别，不仅包括人工撰写的内容，还整合了多种LLM生成的邮件，以模拟现实世界中的欺骗性通信。数据集的核心优势在于其情感和动机标签系统，这些标签捕捉了邮件中的紧急感、恐惧、权威、贪婪等情感线索，以及链接点击、凭证盗窃等动机因素，为深入分析情感操纵策略提供了基础。此外，数据集包含通过不同LLM管道生成的重述变体，使得研究者能够评估分类器在内容改写下的鲁棒性，而Claude 3.5 Sonnet的分类预测进一步增强了数据的可靠性和可重复性，支持从多角度探索AI辅助的电子邮件安全应用。

使用方法

该数据集的使用方法旨在支持可重复的网络安全研究，特别是在钓鱼邮件检测和垃圾邮件分析领域。研究者可以通过加载数据集文件（如merged_emails_with_categories.jsonl）访问邮件的真实类别、来源信息、重述来源、情感和动机标签以及Claude 3.5 Sonnet的分类预测。配套的脚本工具（如accuracy_validation.py、category.py和stats.py）提供了便捷的分析管道，用于基准测试情感和动机检测、执行邮件分类以及计算严格和宽松的准确率、混淆矩阵和重述鲁棒性指标。通过运行这些脚本，用户可以生成详细的分类报告和LaTeX就绪的表格，便于在学术出版物中呈现结果。数据集的设计鼓励跨模型比较和鲁棒性评估，帮助推动AI在电子邮件安全中的实际应用。

背景与挑战

背景概述

随着大型语言模型（LLM）技术的迅猛发展，网络钓鱼与垃圾邮件等网络安全威胁日益复杂化，传统检测方法面临严峻挑战。在此背景下，Phishing and Spam Email DataSet应运而生，由研究团队于近期构建并开源。该数据集旨在为基于LLM的邮件安全研究提供多维度、高质量的数据支持，核心研究问题聚焦于如何有效识别并分析由LLM生成的欺骗性邮件内容，以及评估分类模型在语义改写下的鲁棒性。通过整合人工撰写与多种LLM生成的邮件样本，并标注情感、动机等语义标签，该数据集为探究网络钓鱼与垃圾邮件的检测机制、情感操纵策略以及自动化安全评估提供了重要基础，显著推动了人工智能辅助邮件安全领域的研究进程。

当前挑战

该数据集致力于解决邮件安全领域中的核心挑战，即精准区分网络钓鱼、垃圾邮件与合法邮件，并深入分析邮件中的情感与动机操纵策略。具体挑战体现在两方面：其一，在领域问题层面，尽管模型在钓鱼邮件检测上表现优异，但垃圾邮件与合法邮件的区分仍存在显著困难，相关F1分数较低，揭示了现有方法在语义细微差别识别上的局限性；其二，在构建过程中，数据收集与标注面临诸多困难，包括如何从开源语料库中筛选并整合高质量的人工邮件，以及利用多个LLM管道生成多样化的改写变体，同时确保情感与动机标签标注的准确性与一致性，这需要通过严谨的评估流程筛选出如Claude 3.5 Sonnet等可靠模型来完成大规模标注任务。

常用场景

经典使用场景

在网络安全与人工智能交叉领域，该数据集为研究大型语言模型在电子邮件安全分析中的应用提供了核心资源。其经典使用场景聚焦于钓鱼邮件与垃圾邮件的自动检测与分类，通过整合人类撰写与LLM生成的邮件样本，并辅以情感与动机标注，支持研究者构建和评估基于深度学习的分类模型，以识别邮件中的欺骗性内容与情感操纵策略，从而提升邮件过滤系统的智能化水平。

实际应用

在实际应用层面，该数据集可直接服务于企业电子邮件安全系统的开发与优化。安全团队可利用其丰富的标注信息训练更精准的钓鱼检测引擎，增强对新兴LLM生成威胁的识别能力。同时，数据集中包含的改写变体有助于测试现有过滤系统在应对内容 paraphrasing 攻击时的稳定性，为安全产品的鲁棒性评估提供基准，从而降低因社交工程攻击导致的数据泄露与金融损失风险。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在基于LLM的情感与动机检测框架的构建，以及跨模型鲁棒性评估协议的建立。例如，利用Claude 3.5 Sonnet进行大规模标注的流程已成为同类研究的参考范式；而针对paraphrasing鲁棒性的分析则催生了针对对抗性文本生成的防御性研究，这些工作共同推动了AI驱动电子邮件安全从理论探索向工程化实践的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集