KOR_phishing_Detect-Dataset
收藏github2024-04-29 更新2024-05-31 收录
下载链接:
https://github.com/Ez-Sy01/KOR_phishing_Detect-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
在韩国,智能手机的快速普及导致与电子通信金融诈骗相关的消息钓鱼攻击增加。为了应对这一问题,提出了多种钓鱼检测算法。然而,由于担心数据可能被用于犯罪活动,收集消息钓鱼数据面临挑战。因此,韩国的钓鱼数据集可能由不平衡的数据组成,其中普通消息的数量可能超过钓鱼消息。这种类别不平衡问题和数据稀缺可能导致过拟合问题,难以实现高性能。为了解决这个问题,本文提出了一种使用偏置判别分析的钓鱼消息分类方法,无需依赖数据增强技术。通过优化BDA的参数,我们在钓鱼消息分类实验中实现了极高的性能,召回率达到95.45%,BA指标达到96.85%。此外,与其他算法相比,所提出的方法显示出对类别不平衡问题的过拟合具有鲁棒性,并且在训练和测试之间的性能差异最小。
Against the backdrop of the rapid popularization of smartphones in the Republic of Korea, the incidence of message-based phishing attacks linked to electronic communication financial fraud has been on the rise. To address this issue, various phishing detection algorithms have been proposed. However, collecting phishing message datasets poses significant challenges, as there are widespread concerns that the data may be exploited for criminal activities. As a result, Korean phishing datasets are likely to be imbalanced, with the volume of legitimate messages outweighing that of phishing messages. Such class imbalance and data scarcity may lead to overfitting, making it difficult to achieve high classification performance. To tackle these problems, this paper proposes a phishing message classification method using Bias Discriminant Analysis (BDA) that does not rely on data augmentation techniques. By optimizing the parameters of BDA, we achieved exceptional performance in phishing message classification experiments, with a recall rate of 95.45% and a Balanced Accuracy (BA) of 96.85%. Furthermore, compared with other algorithms, the proposed method exhibits robustness against overfitting caused by class imbalance, and shows minimal performance discrepancy between the training and testing phases.
创建时间:
2024-04-29
原始信息汇总
KOR_phishing_Detect-Dataset 概述
数据集用途
本数据集用于支持论文 "Classification of Korean Phishing Messages using Biased Discriminant Analysis under Extreme Class Imbalance Problem" 的研究,旨在解决韩国智能手机普及导致的通讯软件钓鱼攻击问题。
数据集特点
- 数据不平衡问题:数据集中普通消息的数量可能远超钓鱼消息,存在严重的类别不平衡问题。
- 研究方法:采用Biased Discriminant Analysis进行钓鱼消息分类,无需数据增强技术。
- 性能表现:实验结果显示,召回率达到95.45%,平衡准确率(BA)达到96.85%,且在类别不平衡问题下表现出良好的抗过拟合能力。
作者
- Siyoon Kim
- JeongMin Park
- Hyun Ahn
- Yonggeol Lee*
搜集汇总
数据集介绍

构建方式
在韩国,随着智能手机的普及,电子通信金融诈骗相关的钓鱼攻击也随之增加。为了应对这一问题,研究者们构建了一个韩国钓鱼信息检测数据集。该数据集的构建面临的主要挑战在于,钓鱼信息的收集可能被用于非法活动,因此数据集中的钓鱼信息数量远少于普通信息,导致类别不平衡问题。为解决这一问题,研究者采用了偏判别分析(Biased Discriminant Analysis, BDA)方法,通过优化参数来提高分类性能,而无需依赖数据增强技术。
特点
该数据集的主要特点在于其极端的类别不平衡性,普通信息数量远超钓鱼信息,这使得模型容易出现过拟合问题。此外,数据集的构建过程中未使用数据增强技术,而是通过BDA方法进行优化,从而在保持高召回率(95.45%)和平衡准确率(96.85%)的同时,有效减少了类别不平衡带来的过拟合风险。与其他算法相比,该方法在训练和测试阶段表现出较小的性能差异,显示出对类别不平衡问题的鲁棒性。
使用方法
该数据集可用于训练和验证钓鱼信息检测模型,特别是在处理类别不平衡问题时。用户可以通过BDA方法对数据集进行分类,优化模型参数以提高分类性能。此外,数据集还可用于比较不同算法在处理类别不平衡问题时的表现,帮助研究者选择最适合的模型。使用时,建议结合BDA方法进行模型训练,以充分利用数据集的特点,提升模型的泛化能力。
背景与挑战
背景概述
随着智能手机在韩国的迅速普及,电子通信金融诈骗相关的钓鱼攻击也随之增加。为了应对这一问题,研究人员提出了多种钓鱼检测算法。然而,收集钓鱼信息数据面临诸多挑战,主要源于其可能被用于犯罪活动的担忧。因此,韩国的钓鱼数据集往往呈现出类别不平衡的特点,即普通信息数量远超钓鱼信息。这一数据集由Siyoon Kim、JeongMin Park、Hyun Ahn和Yonggeol Lee等研究人员创建,旨在解决极端类别不平衡问题,并通过偏判别分析(Biased Discriminant Analysis, BDA)方法实现高效的钓鱼信息分类。该数据集的创建不仅为钓鱼检测领域提供了宝贵的资源,还展示了在数据稀缺和类别不平衡情况下优化分类性能的可能性。
当前挑战
该数据集面临的主要挑战包括极端的类别不平衡问题和数据稀缺性。由于钓鱼信息数量远少于普通信息,模型容易出现过拟合现象,导致分类性能下降。此外,数据收集过程中需谨慎处理,以避免数据被滥用于非法活动。尽管如此,通过偏判别分析等创新方法,研究人员成功克服了这些挑战,实现了高达95.45%的召回率和96.85%的BA指标,展示了该数据集在钓鱼信息检测领域的潜力和价值。
常用场景
经典使用场景
KOR_phishing_Detect-Dataset 数据集在韩国网络钓鱼信息分类领域展现了其经典应用价值。该数据集通过收集和整理大量韩国语境下的钓鱼信息与普通信息,为研究者提供了一个极具挑战性的分类任务平台。其核心应用场景在于利用偏差判别分析(BDA)方法,针对极端类别不平衡问题进行优化,从而实现对钓鱼信息的精准识别。
实际应用
在实际应用中,KOR_phishing_Detect-Dataset 数据集为韩国的网络安全防护提供了强有力的支持。通过训练和优化后的模型,可以有效识别和过滤电子通信中的钓鱼信息,从而减少金融诈骗等犯罪行为的发生。该数据集的应用不仅提升了网络安全系统的防护能力,也为相关企业和机构提供了可靠的技术保障,确保用户信息的安全。
衍生相关工作
基于KOR_phishing_Detect-Dataset 数据集,研究者们进一步探索了多种分类算法在钓鱼信息检测中的应用。例如,有研究通过对比不同算法的性能,验证了偏差判别分析在处理类别不平衡问题上的优越性。此外,该数据集还激发了关于数据稀缺性和类别不平衡问题的深入讨论,推动了相关领域的理论与实践发展。
以上内容由遇见数据集搜集并总结生成



