PhishingSpamDataSet

Name: PhishingSpamDataSet
Creator: 奥斯陆大学
Published: 2025-11-26 22:40:06
License: 暂无描述

arXiv2025-11-26 更新2025-11-28 收录

下载链接：

https://github.com/DataPhish/PhishingSpamDataSet

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建的钓鱼邮件与垃圾邮件数据集是由奥斯陆大学科研团队开发的综合性语料库，包含钓鱼邮件、垃圾邮件和正常邮件三大类别。数据集规模达9000条样本，涵盖真实场景邮件与LLM生成内容，每条数据均包含完整元数据与情感动机标注。通过整合多源邮件数据与专家标注流程，采用大型语言模型进行情感分析和意图识别，并生成语义保持的改写变体以增强数据多样性。该数据集主要应用于网络安全领域，为AI驱动的邮件威胁检测系统提供训练基准，致力于解决新型LLM生成钓鱼邮件的识别难题与社交工程攻击的防御挑战。

The phishing and spam email dataset constructed in this study is a comprehensive corpus developed by the research team of the University of Oslo. It covers three major categories: phishing emails, spam emails, and legitimate emails. The dataset contains 9000 samples in total, including real-world scenario emails and content generated by Large Language Models (LLMs). Each entry includes complete metadata and emotional motivation annotations. By integrating multi-source email data and expert annotation workflows, large language models are utilized for sentiment analysis and intent recognition, and generate semantically consistent rewritten variants to enhance data diversity. This dataset is primarily applied in the field of cybersecurity, providing training benchmarks for AI-driven email threat detection systems, and aims to address the challenges of identifying emerging LLM-generated phishing emails and defending against social engineering attacks.

提供机构：

奥斯陆大学

创建时间：

2025-11-26

原始信息汇总

PhishingSpamDataSet 数据集概述

数据集简介

PhishingSpamDataSet是一个用于网络钓鱼、垃圾邮件和合法邮件分析的多层开放科学数据集，包含情感标签、动机标签和语义标签。

数据集内容

主要数据文件

merged_emails_with_categories.jsonl：包含邮件分类、来源、改写来源、情感标签、动机标签和Claude 3.5 Sonnet预测分类

数据类型

人工编写的钓鱼邮件、垃圾邮件和合法邮件
LLM生成的邮件（使用GPT-4o、DeepSeek-Chat、Grok、Llama 3.3、Gemini、Nova、Mistral等模型）
来自三个独立LLM管线的改写/转述变体

标注信息

分类标签

真实类别：钓鱼邮件(Phishing)、垃圾邮件(Spam)、合法邮件(Valid)
来源类型：人工编写 vs LLM生成
改写来源：GPT-4o、DeepSeek、RandomAPI、Manual

情感标签

紧急感(urgency)
恐惧(fear)
权威(authority)等

动机标签

链接点击(link-click)
凭证窃取(credential theft)等

方法论

数据集构建

从开源语料库和精选钓鱼邮件库收集人工编写邮件
生成LLM邮件以增加多样性
通过三个管线进行改写：DeepSeek-Chat、GPT-4o、OpenRouter多模型管线

标注流程

评估了四个LLM模型的情感动机检测能力：

GPT-4o-mini
GPT-4.1-mini
Claude 3.5 Sonnet
DeepSeek-Chat

Claude 3.5 Sonnet因与人工标注匹配度最高而被选为全数据集标注模型

关键发现

情感动机分析

Claude 3.5 Sonnet：Jaccard相似度0.60，近似准确率42%
动机检测更具挑战性，顶级模型达到53-61%近似准确率

邮件分类性能

严格准确率：约66-67%
宽松准确率：约69-70%
钓鱼检测优秀(F1≈0.93)
垃圾检测较弱(F1≈0.20-0.23)
合法邮件分类中等(F1≈0.63)

改写鲁棒性

严格准确率最大偏差：0.55个百分点
宽松准确率最大偏差：0.54个百分点
改写对分类器性能影响极小

工具脚本

accuracy_validation.py：情感动机检测基准测试
category.py：邮件分类管线
stats.py：严格/宽松准确率、混淆矩阵、改写鲁棒性分析

研究目标

支持基于LLM的邮件安全研究，包括钓鱼检测、垃圾邮件分析、情感操纵和自动鲁棒性评估。

搜集汇总

数据集介绍

构建方式

在网络安全领域，面对日益复杂的钓鱼和垃圾邮件威胁，PhishingSpamDataSet通过多源整合与标准化标注流程构建而成。该数据集汇集了来自个人和企业邮箱的真实邮件、现有公共数据集样本以及受控生成的合成内容，覆盖钓鱼、垃圾邮件和合法邮件三大类别。每个邮件均经过结构化处理，提取主题、正文、发件人、链接及附件等元数据，并采用经过基准测试验证的大型语言模型进行情感动机标注，同时通过多模型重述策略生成语义一致的变体以增强数据多样性。

特点

该数据集的核心价值在于其多维度的标注体系与动态演化特性。每封邮件不仅标注了类型和生成来源，还深入解析了情感诉求（如紧迫感、恐惧、权威性）与攻击动机（如链接诱导、凭证窃取、金融欺诈），形成细粒度的社会工程学特征画像。通过引入人类与LLM生成内容的明确区分以及跨年度数据对比，有效捕捉了网络威胁的语言风格演变。其包含的语义保留重述样本进一步提升了数据集的对抗鲁棒性测试能力，为研究AI辅助邮件安全系统提供了立体化的分析基础。

使用方法

该数据集为邮件安全检测研究提供了标准化的评估框架与扩展接口。研究者可基于其分层标注体系开发多任务学习模型，同时进行邮件分类、情感识别与动机分析任务；通过对比原始邮件与重述变体的检测效果，能够系统性评估模型对语义攻击的抵抗能力。数据集配套的开放式处理脚本与标注流程支持自定义扩展，允许集成新兴威胁样本或适配特定领域标注规范。在具体应用中，可结合传统机器学习与深度学习方法，利用其丰富的元数据特征构建端到端的威胁感知管道，推动自适应邮件过滤技术的发展。

背景与挑战

背景概述

网络钓鱼与垃圾邮件持续构成严峻的网络安全威胁，随着攻击者广泛利用大语言模型生成高度欺骗性内容，传统检测机制面临失效风险。奥斯陆大学与厄特沃什·罗兰大学的研究团队于2025年构建了PhishingSpamDataSet，该数据集通过整合真实邮件与合成样本，系统标注了邮件类型、情感策略与攻击动机，为研究AI辅助邮件安全系统提供了关键数据支撑。其创新性体现在区分人工与AI生成内容，并引入情感动机分析维度，推动了邮件威胁检测研究范式的演进。

当前挑战

该数据集致力于解决文本钓鱼与垃圾邮件检测领域的核心挑战：大语言模型生成内容的高迷惑性导致传统特征检测失效，以及情感动机标注中的语义模糊性问题。构建过程中面临多重技术障碍，包括保持重构邮件意图一致性的控制难题、跨模型情感标注的稳定性保障，以及过时数据集中关键元数据缺失导致的真实性缺陷。此外，垃圾邮件主观界定带来的标注歧义，进一步增加了高质量基准数据建立的复杂度。

常用场景

经典使用场景

在网络安全研究领域，PhishingSpamDataSet作为文本分类任务的基准数据集，被广泛用于评估大语言模型在钓鱼邮件与垃圾邮件检测中的性能。该数据集通过标注情感诉求与攻击动机，为研究者提供了分析社会工程学操纵策略的标准化语料，尤其在测试模型对紧急、恐惧等情绪线索的识别能力方面具有重要价值。

解决学术问题

该数据集有效解决了传统检测方法对AI生成内容的适应性不足问题，通过区分人工与LLM生成的邮件样本，为研究语义保持的文本改写对分类器鲁棒性的影响提供了实验基础。其情感与动机标注体系突破了传统二分类框架，助力学术界深入解析网络攻击中的心理操纵机制，推动了自适应邮件安全系统的理论发展。

衍生相关工作

该数据集催生了多项创新研究，例如Eilertsen等人基于意图分类的钓鱼邮件分析框架，以及Afane团队针对LLM改写邮件的检测鲁棒性研究。相关成果进一步拓展至对抗性样本生成领域，为构建具有语义理解能力的下一代邮件防御系统奠定了数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集