PhishIntentionLLM
收藏arXiv2025-07-21 更新2025-07-23 收录
下载链接:
https://github.com/v1ct0rl33/PhishIntentionLLM
下载链接
链接失效反馈官方服务:
资源简介:
PhishIntentionLLM是一个用于识别钓鱼网站恶意意图的多代理检索增强生成(RAG)框架,通过分析网站截图来揭示钓鱼意图。该框架利用大型语言模型(LLMs)的视觉语言能力,识别出四个关键钓鱼目标:凭证窃取、金融欺诈、恶意软件分发和个人信息收集。研究人员构建并发布了第一个包含约2000个样本的钓鱼意图真实数据集,并使用四种商业LLMs评估了该框架。实验结果表明,PhishIntentionLLM在GPT-4o上实现了0.7895的微精确度,并且与单代理基线相比,微精确度提高了约95%。此外,研究人员还生成并公开了一个包含约9000个样本的更大数据集,以进行大规模的钓鱼意图分析。
PhishIntentionLLM is a multi-agent retrieval-augmented generation (RAG) framework for identifying malicious intent in phishing websites, which reveals phishing intentions by analyzing website screenshots. Leveraging the vision-language capabilities of large language models (LLMs), this framework recognizes four key phishing objectives: credential theft, financial fraud, malware distribution, and personal information collection. Researchers constructed and released the first real-world phishing intent dataset containing approximately 2,000 samples, and evaluated the framework using four commercial LLMs. Experimental results show that PhishIntentionLLM achieves a micro precision of 0.7895 on GPT-4o, and improves micro precision by approximately 95% compared to the single-agent baseline. Additionally, researchers generated and publicly released a larger dataset with approximately 9,000 samples for large-scale phishing intent analysis.
提供机构:
马来西亚理科大学网络安全研究中心
创建时间:
2025-07-21
搜集汇总
数据集介绍

构建方式
PhishIntentionLLM数据集的构建过程体现了严谨的学术规范与网络安全领域的专业要求。研究团队从三个现有包含钓鱼网站截图的公开数据集中随机选取样本,经过严格的质量筛选后,由三位具有三年以上专业经验的网络安全工程师进行独立标注。标注过程采用双重验证机制,两位工程师分别基于视觉内容分析判断钓鱼意图,第三位工程师负责复核标注一致性。数据集最终包含2,063个样本,涵盖电子商务、金融、社交网络等多个领域,每个样本标注了一至三种恶意意图,包括凭证窃取、金融欺诈、恶意软件分发和个人信息收集四大类别。
特点
该数据集作为首个专注于钓鱼网站意图分析的真实标注数据集,具有显著的领域创新价值。其核心特征体现在多维度标注体系上,不仅记录了网站视觉内容,还精确标注了攻击者的恶意意图类型及组合模式。数据分布显示凭证窃取(1,696例)是最普遍的意图,而多意图组合样本占比达14.8%,反映了现代钓鱼攻击的复杂策略。数据集特别注重样本多样性,覆盖不同行业领域和攻击手法,且通过专业安全工程师的交叉验证确保了标注质量,为研究钓鱼攻击者的行为模式提供了可靠的数据基础。
使用方法
该数据集适用于钓鱼攻击行为分析和意图识别模型的开发验证。研究者可利用其开展多标签分类任务,训练模型识别四大类恶意意图及其组合模式。在使用时建议采用微平均指标(micro-averaged metrics)进行评估,以准确反映真实场景下的数据分布特性。对于复杂样本分析,可参照论文提出的Accuracy by Complexity指标,针对不同意图数量的样本设置差异化评估标准。此外,数据集可与视觉语言大模型结合,开发基于截图分析的钓鱼意图识别系统,或用于跨行业钓鱼攻击模式的特征分析。为保障研究可复现性,建议遵循原始论文中的9:1训练测试划分比例。
背景与挑战
背景概述
PhishIntentionLLM数据集由马来西亚理科大学网络安全研究中心的研究人员Wenhao Li、Selvakumar Manickam、Yung-Wey Chong和Shankar Karuppayah于2025年创建。该数据集旨在解决网络安全领域中钓鱼网站意图识别的研究空白,专注于从网站截图中识别四种主要恶意意图:凭证窃取、金融欺诈、恶意软件分发和个人信息收集。作为首个公开的钓鱼意图标注数据集,PhishIntentionLLM包含约2,000个样本,并进一步扩展至9,000个样本用于大规模分析。该数据集通过多智能体检索增强生成(RAG)框架,显著提升了钓鱼意图识别的准确性和可解释性,为网络安全领域提供了更精细的威胁分析工具。
当前挑战
PhishIntentionLLM数据集面临的主要挑战包括:1) 领域问题方面,钓鱼网站意图识别需解决多标签分类的复杂性,同一网站可能同时具有多种恶意意图,且不同意图的样本分布极不均衡;2) 构建过程中需克服视觉欺骗技术的多样性,包括高度仿真的界面设计和动态内容伪装,这对标注一致性和模型泛化能力提出严峻考验;3) 知识检索系统需要持续更新以应对快速演变的钓鱼技术,保持对新型攻击模式的识别能力;4) 多模态数据处理中视觉与文本特征的语义对齐问题,特别是在处理多语言钓鱼网站时面临额外挑战。
常用场景
经典使用场景
PhishIntentionLLM数据集在网络安全领域中被广泛用于识别和分析钓鱼网站的恶意意图。通过视觉语言模型和多智能体检索增强生成技术,该数据集能够从钓鱼网站的截图中提取关键信息,识别出四种主要的钓鱼目标:凭证窃取、金融欺诈、恶意软件分发和个人信息收集。这一数据集的使用场景包括学术研究、网络安全防御系统的开发以及钓鱼攻击的实时监测。
衍生相关工作
PhishIntentionLLM数据集衍生了一系列相关研究工作,包括基于视觉语言模型的钓鱼网站检测、多智能体协同分析框架的优化,以及钓鱼攻击意图的大规模统计分析。这些工作进一步扩展了数据集的应用范围,推动了钓鱼攻击意图识别领域的技术进步。例如,一些研究利用该数据集开发了新型的钓鱼网站分类器,显著提升了检测精度和效率。
数据集最近研究
最新研究方向
随着网络钓鱼攻击手段的日益复杂化和多样化,PhishIntentionLLM数据集的提出标志着钓鱼网站检测研究从传统的二元分类向多维度意图识别的重要转变。该数据集通过整合视觉语言大模型(LLMs)与多智能体检索增强生成(RAG)技术,开创性地构建了首个包含2000余个标注样本的钓鱼意图基准数据集,涵盖凭证窃取、金融欺诈、恶意软件分发和个人信息收集四大核心攻击意图。前沿研究聚焦于多模态特征融合与可解释性分析,通过层次化智能体架构实现意图识别精度95%的提升,其中GPT-4o在微平均精度指标上达到0.7895。最新应用表明,该框架在跨行业大规模钓鱼画像分析中展现出显著优势,已扩展生成9000余个样本的增强数据集,为构建意图感知的网络安全防御体系提供了重要技术支撑。
相关研究论文
- 1PhishIntentionLLM: Uncovering Phishing Website Intentions through Multi-Agent Retrieval-Augmented Generation马来西亚理科大学网络安全研究中心 · 2025年
以上内容由遇见数据集搜集并总结生成



