five

PhishIntentionLLM|网络安全数据集|钓鱼攻击检测数据集

收藏
arXiv2025-07-21 更新2025-07-23 收录
网络安全
钓鱼攻击检测
下载链接:
https://github.com/v1ct0rl33/PhishIntentionLLM
下载链接
链接失效反馈
资源简介:
PhishIntentionLLM是一个用于识别钓鱼网站恶意意图的多代理检索增强生成(RAG)框架,通过分析网站截图来揭示钓鱼意图。该框架利用大型语言模型(LLMs)的视觉语言能力,识别出四个关键钓鱼目标:凭证窃取、金融欺诈、恶意软件分发和个人信息收集。研究人员构建并发布了第一个包含约2000个样本的钓鱼意图真实数据集,并使用四种商业LLMs评估了该框架。实验结果表明,PhishIntentionLLM在GPT-4o上实现了0.7895的微精确度,并且与单代理基线相比,微精确度提高了约95%。此外,研究人员还生成并公开了一个包含约9000个样本的更大数据集,以进行大规模的钓鱼意图分析。
提供机构:
马来西亚理科大学网络安全研究中心
创建时间:
2025-07-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
PhishIntentionLLM数据集的构建过程体现了严谨的学术规范与网络安全领域的专业要求。研究团队从三个现有包含钓鱼网站截图的公开数据集中随机选取样本,经过严格的质量筛选后,由三位具有三年以上专业经验的网络安全工程师进行独立标注。标注过程采用双重验证机制,两位工程师分别基于视觉内容分析判断钓鱼意图,第三位工程师负责复核标注一致性。数据集最终包含2,063个样本,涵盖电子商务、金融、社交网络等多个领域,每个样本标注了一至三种恶意意图,包括凭证窃取、金融欺诈、恶意软件分发和个人信息收集四大类别。
特点
该数据集作为首个专注于钓鱼网站意图分析的真实标注数据集,具有显著的领域创新价值。其核心特征体现在多维度标注体系上,不仅记录了网站视觉内容,还精确标注了攻击者的恶意意图类型及组合模式。数据分布显示凭证窃取(1,696例)是最普遍的意图,而多意图组合样本占比达14.8%,反映了现代钓鱼攻击的复杂策略。数据集特别注重样本多样性,覆盖不同行业领域和攻击手法,且通过专业安全工程师的交叉验证确保了标注质量,为研究钓鱼攻击者的行为模式提供了可靠的数据基础。
使用方法
该数据集适用于钓鱼攻击行为分析和意图识别模型的开发验证。研究者可利用其开展多标签分类任务,训练模型识别四大类恶意意图及其组合模式。在使用时建议采用微平均指标(micro-averaged metrics)进行评估,以准确反映真实场景下的数据分布特性。对于复杂样本分析,可参照论文提出的Accuracy by Complexity指标,针对不同意图数量的样本设置差异化评估标准。此外,数据集可与视觉语言大模型结合,开发基于截图分析的钓鱼意图识别系统,或用于跨行业钓鱼攻击模式的特征分析。为保障研究可复现性,建议遵循原始论文中的9:1训练测试划分比例。
背景与挑战
背景概述
PhishIntentionLLM数据集由马来西亚理科大学网络安全研究中心的研究人员Wenhao Li、Selvakumar Manickam、Yung-Wey Chong和Shankar Karuppayah于2025年创建。该数据集旨在解决网络安全领域中钓鱼网站意图识别的研究空白,专注于从网站截图中识别四种主要恶意意图:凭证窃取、金融欺诈、恶意软件分发和个人信息收集。作为首个公开的钓鱼意图标注数据集,PhishIntentionLLM包含约2,000个样本,并进一步扩展至9,000个样本用于大规模分析。该数据集通过多智能体检索增强生成(RAG)框架,显著提升了钓鱼意图识别的准确性和可解释性,为网络安全领域提供了更精细的威胁分析工具。
当前挑战
PhishIntentionLLM数据集面临的主要挑战包括:1) 领域问题方面,钓鱼网站意图识别需解决多标签分类的复杂性,同一网站可能同时具有多种恶意意图,且不同意图的样本分布极不均衡;2) 构建过程中需克服视觉欺骗技术的多样性,包括高度仿真的界面设计和动态内容伪装,这对标注一致性和模型泛化能力提出严峻考验;3) 知识检索系统需要持续更新以应对快速演变的钓鱼技术,保持对新型攻击模式的识别能力;4) 多模态数据处理中视觉与文本特征的语义对齐问题,特别是在处理多语言钓鱼网站时面临额外挑战。
常用场景
经典使用场景
PhishIntentionLLM数据集在网络安全领域中被广泛用于识别和分析钓鱼网站的恶意意图。通过视觉语言模型和多智能体检索增强生成技术,该数据集能够从钓鱼网站的截图中提取关键信息,识别出四种主要的钓鱼目标:凭证窃取、金融欺诈、恶意软件分发和个人信息收集。这一数据集的使用场景包括学术研究、网络安全防御系统的开发以及钓鱼攻击的实时监测。
衍生相关工作
PhishIntentionLLM数据集衍生了一系列相关研究工作,包括基于视觉语言模型的钓鱼网站检测、多智能体协同分析框架的优化,以及钓鱼攻击意图的大规模统计分析。这些工作进一步扩展了数据集的应用范围,推动了钓鱼攻击意图识别领域的技术进步。例如,一些研究利用该数据集开发了新型的钓鱼网站分类器,显著提升了检测精度和效率。
数据集最近研究
最新研究方向
随着网络钓鱼攻击手段的日益复杂化和多样化,PhishIntentionLLM数据集的提出标志着钓鱼网站检测研究从传统的二元分类向多维度意图识别的重要转变。该数据集通过整合视觉语言大模型(LLMs)与多智能体检索增强生成(RAG)技术,开创性地构建了首个包含2000余个标注样本的钓鱼意图基准数据集,涵盖凭证窃取、金融欺诈、恶意软件分发和个人信息收集四大核心攻击意图。前沿研究聚焦于多模态特征融合与可解释性分析,通过层次化智能体架构实现意图识别精度95%的提升,其中GPT-4o在微平均精度指标上达到0.7895。最新应用表明,该框架在跨行业大规模钓鱼画像分析中展现出显著优势,已扩展生成9000余个样本的增强数据集,为构建意图感知的网络安全防御体系提供了重要技术支撑。
相关研究论文
  • 1
    PhishIntentionLLM: Uncovering Phishing Website Intentions through Multi-Agent Retrieval-Augmented Generation马来西亚理科大学网络安全研究中心 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

K-Lane

K-Lane是世界上首个也是最大的公共城市道路和高速公路激光雷达车道数据集,包含超过1.5万个帧,涵盖了多达六个车道的标注,适应于多种道路和交通条件,如多级遮挡道路、白天和夜晚道路、合并(收敛和发散)以及弯曲车道。

arXiv 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录