ealvaradob/phishing-dataset|网络钓鱼检测数据集|自然语言处理数据集

Name: ealvaradob/phishing-dataset|网络钓鱼检测数据集|自然语言处理数据集
Creator: ealvaradob
Published: 2024-01-31 07:00:53
License: 暂无描述

hugging_face2024-01-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ealvaradob/phishing-dataset

下载链接

链接失效反馈

资源简介：

该数据集是一个用于钓鱼检测的数据集，包含了从多个来源收集的数据，如邮件、短信、URL和网页HTML代码。数据集经过预处理，去除了空值、重复数据，并进行了类别平衡。数据集结构包含两列：`text`和`label`，其中`text`字段可以是URL、短信、邮件或HTML代码，`label`字段标记为1（钓鱼）或0（正常）。数据集分为完整版和缩减版，缩减版减少了URL样本以保持数据平衡。数据集主要用于训练BERT模型进行钓鱼检测，但也适用于其他模型。

提供机构：

ealvaradob

原始信息汇总

Phishing Dataset

数据集详情

数据结构

所有数据集都经过预处理，消除了空值、重复数据，并进行了类别平衡处理。数据集包含两列：text 和 label。text 字段可能包含以下样本：

URL
SMS 消息
电子邮件消息
HTML 代码

所有记录都被标记为 1（钓鱼） 或 0（良性）。

源数据

数据集来自以下四个来源：

邮件数据集：包含超过 18,000 封来自 Enron Corporation 员工的电子邮件，用于检测钓鱼邮件。
SMS 消息数据集：包含 5,971 条文本消息，包括 489 条垃圾短信、638 条钓鱼短信和 4,844 条正常短信。
URL 数据集：包含超过 800,000 个 URL，其中 52% 是合法域名，47% 是钓鱼域名。
网站数据集：包含 80,000 个实例，其中 50,000 个是合法网站，30,000 个是钓鱼网站，每个实例包含 URL 和 HTML 页面。

合并数据集

合并数据集包含所有上述数据源，分为两种：

完整合并数据集：包含 800,000+ 个 URL。
简化合并数据集：减少了 95% 的 URL 样本，以保持数据平衡。

处理简化合并数据集

该数据集主要用于与 BERT 语言模型结合使用，未进行传统的 NLP 预处理。

使用方法

可以通过以下代码加载数据集： python from datasets import load_dataset

dataset = load_dataset("ealvaradob/phishing-dataset", "<desired_dataset>", trust_remote_code=True)

例如，加载简化合并数据集： python dataset = load_dataset("ealvaradob/phishing-dataset", "combined_reduced", trust_remote_code=True)

AI搜集汇总

数据集介绍

构建方式

该数据集通过整合多个来源的数据构建而成，涵盖了电子邮件、短信、URL和网页HTML代码等多种形式，旨在支持网络钓鱼检测任务。数据集经过预处理，包括去除空值、重复数据以及进行类别平衡，以确保数据的准确性和公正性。此外，数据集被分为两个主要部分：完整合并数据集和简化合并数据集。简化合并数据集通过减少URL样本数量，以保持数据类型的平衡，避免模型偏向于某一特定数据类型。

特点

该数据集的一个显著特点是其多样性和平衡性。它不仅包含了多种数据类型，如URL、短信、电子邮件和网页HTML代码，还通过类别平衡处理，确保了钓鱼和良性样本的比例合理。此外，数据集特别优化以适应BERT模型，避免了传统NLP任务中常见的预处理步骤，如词干提取和停用词移除，这些步骤在BERT模型中可能反而降低模型性能。

使用方法

使用该数据集非常简便，用户可以通过HuggingFace的datasets库直接加载所需的数据集。例如，加载简化合并数据集的代码如下： python from datasets import load_dataset dataset = load_dataset("ealvaradob/phishing-dataset", "combined_reduced", trust_remote_code=True) 此外，用户还可以根据需要将数据集进一步划分为训练集和测试集，以进行更细致的模型训练和评估。

背景与挑战

背景概述

网络钓鱼（Phishing）攻击是网络安全领域中的一大威胁，其通过伪装成合法实体以获取敏感信息。ealvaradob/phishing-dataset数据集由多个来源的数据编译而成，旨在支持网络钓鱼检测与分类任务。该数据集涵盖了URL、短信、电子邮件和HTML代码等多种数据类型，并经过预处理以消除空值、重复数据，并进行了类别平衡以避免偏差。数据集的核心研究问题是如何通过机器学习模型有效识别和分类网络钓鱼行为，从而提升网络安全防护能力。该数据集的构建不仅汇集了来自Kaggle、Mendeley等平台的多样化数据，还特别针对BERT模型进行了优化，展示了其在网络钓鱼检测领域的广泛应用潜力。

当前挑战

网络钓鱼数据集的构建面临多重挑战。首先，数据来源的多样性带来了数据格式和质量的不一致性，需进行复杂的预处理以确保数据可用性。其次，网络钓鱼行为的隐蔽性和多变性使得数据标注和分类任务异常复杂，尤其是在处理混合数据类型时，如何保持各类数据的代表性成为一大难题。此外，数据集的规模和处理需求对计算资源提出了较高要求，尤其是在处理大规模URL数据时，限制了部分数据的完整性。最后，针对BERT模型的优化也带来了新的挑战，如是否需要传统的NLP预处理步骤，以及如何在保持数据多样性的同时避免模型偏差。这些挑战共同构成了该数据集在实际应用中的复杂性和研究价值。

常用场景

经典使用场景

在网络安全领域，ealvaradob/phishing-dataset数据集被广泛用于钓鱼检测任务。该数据集通过整合多种数据源，包括URL、短信、电子邮件和HTML代码，提供了丰富的样本用于训练和评估钓鱼检测模型。特别是，该数据集的'combined_reduced'版本被推荐用于BERT模型的训练，以确保数据类型的平衡性和模型的泛化能力。

衍生相关工作

基于该数据集，研究者们开发了多种钓鱼检测模型，如基于BERT的深度学习模型和传统的机器学习算法。此外，该数据集还激发了关于多源数据融合和数据预处理策略的研究，推动了钓鱼检测技术的创新和发展。

数据集最近研究