FredZhang7/malicious-website-features-2.4M

Name: FredZhang7/malicious-website-features-2.4M
Creator: FredZhang7
Published: 2023-08-14 05:21:51
License: 暂无描述

Hugging Face2023-08-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/FredZhang7/malicious-website-features-2.4M

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含911,180个网站在数据收集时的在线状态，并提取了22+个特征来判断URL是否为恶意。数据集中的URL来自多个来源，包括Kaggle、Phishtank等。数据集主要用于文本分类、特征提取和表格分类任务，支持多种语言。数据集中存在一些错误和不合理的特征提取方法，README文件提供了数据分析和预训练的思路。

提供机构：

FredZhang7

原始信息汇总

数据集概述

数据集许可

许可类型：Apache-2.0

任务类别

文本分类
特征提取
表格分类

支持语言

挪威语（no）
南非荷兰语（af）
英语（en）
爱沙尼亚语（et）
斯瓦希里语（sw）
瑞典语（sv）
阿尔巴尼亚语（sq）
德语（de）
加泰罗尼亚语（ca）
匈牙利语（hu）
丹麦语（da）
他加禄语（tl）
索马里语（so）
芬兰语（fi）
法语（fr）
捷克语（cs）
克罗地亚语（hr）
威尔士语（cy）
西班牙语（es）
斯洛文尼亚语（sl）
土耳其语（tr）
波兰语（pl）
葡萄牙语（pt）
荷兰语（nl）
印度尼西亚语（id）
斯洛伐克语（sk）
立陶宛语（lt）
拉脱维亚语（lv）
越南语（vi）
意大利语（it）
罗马尼亚语（ro）
俄语（ru）
马其顿语（mk）
保加利亚语（bg）
泰语（th）
日语（ja）
韩语（ko）
多语言（multilingual）

数据集大小

数据集大小范围：1M<n<10M

数据集特征

包含911,180个网站的数据，涵盖22+个特征，用于分析URL是否为恶意。
特征提取方法详见feature_extraction.py。

恶意URL分类

破坏
恶意软件
钓鱼

数据分析

提供了两张图像，展示预测值与目标值is_malicious之间的相关系数和决定系数。

预训练策略

使用小型多语言BERT模型进行微调，处理2,436,727个合法和恶意URL，输出恶意URL的置信度。
使用LightGBM分析置信度及约10个提取的特征。

URL来源

搜集汇总

数据集介绍

构建方式

在网络安全领域，恶意网站检测数据集对模型训练至关重要。该数据集通过整合多个公开来源的URL数据构建而成，包括Moz Top 500、Phishtank以及多个Kaggle和GitHub平台上的恶意与良性URL集合。数据收集过程中，作者运用自定义的特征提取脚本，从每个URL中提取了超过22项技术特征，如证书年龄、TTL值、IP地址计数等，并将结果保存为本地CSV文件。值得注意的是，数据集中包含了约91.1万个在采集时仍可访问的网站，时间跨度从2008年11月至2023年7月，覆盖了网页篡改、恶意软件和网络钓鱼等多种恶意类别。

使用方法

该数据集主要用于文本分类与特征提取任务，特别适用于训练恶意网站检测模型。使用者可通过提供的`collect_data()`函数传入URL及其标签，自动提取特征并生成本地数据集。作者建议采用两阶段训练策略：首先利用多语言BERT模型对大量URL进行微调，预测其恶意置信度；随后结合约10个关键特征，使用LightGBM等算法进行进一步分析，以应对网络钓鱼网站生命周期短、数据有限的挑战。数据集支持直接加载至Pandas等工具进行探索性分析，也可集成到机器学习流程中，但需注意特征的相关性筛选结果，避免使用已被标记为不显著或与先前研究矛盾的变量。

背景与挑战

背景概述

随着网络威胁的日益复杂化，恶意网站检测成为网络安全领域的关键研究方向。FredZhang7/malicious-website-features-2.4M数据集由研究人员Fred Zhang于2023年构建，旨在通过大规模多语言URL特征提取，系统性地应对网络钓鱼、恶意软件和篡改网站等安全挑战。该数据集整合了来自PhishTank、Kaggle及多个开源平台的超过240万条URL数据，并提取了包括域名注册时长、页面排名、SSL证书信息在内的二十余项结构化特征，为机器学习模型提供了丰富的训练资源。其核心研究问题聚焦于如何利用静态与动态特征，实现高效、准确的恶意网站自动识别，从而弥补传统基于黑名单方法的滞后性，对推动实时网络安全防护技术的发展具有显著影响力。

当前挑战

该数据集致力于解决恶意网站检测中的领域挑战，主要包括：在动态变化的网络环境中，恶意URL往往具有极短的生命周期，导致数据收集的时效性不足；同时，特征工程需克服网络钓鱼技术的快速演化，确保提取的特征能有效区分新兴攻击模式。在构建过程中，数据集面临多重困难：原始数据源如Kaggle部分存在高达10%-15%的标签错误，严重影响了数据可靠性；特征提取方法存在缺陷，例如`not_indexed_by_google`等函数在2023年已不具鲁棒性，甚至包含逻辑错误；此外，多语言URL的异构性增加了特征归一化的复杂度，而部分特征与先前研究结论相悖，需通过相关性分析进行筛选和验证。

常用场景

经典使用场景

在网络安全领域，恶意网站检测始终是保障用户在线安全的核心挑战。FredZhang7/malicious-website-features-2.4M数据集通过整合超过240万条URL记录，为研究者提供了一个大规模、多语言的特征集合。该数据集最经典的使用场景在于训练和评估机器学习模型，特别是文本分类和特征提取任务，以自动化识别钓鱼网站、恶意软件和篡改页面等威胁。其丰富的特征维度，如URL结构、证书信息和页面元素百分比，使得模型能够深入分析网站行为模式，从而提升检测的准确性和泛化能力。

解决学术问题

该数据集有效解决了恶意网站检测中数据稀缺和特征代表性不足的学术研究问题。传统方法常受限于小规模或单一语言样本，难以捕捉新兴威胁的复杂特征。本数据集通过聚合多源数据，提供了涵盖多种语言和网站类型的广泛样本，支持研究者探索特征与恶意性之间的相关性。其意义在于推动了检测模型从依赖规则向数据驱动转变，促进了跨语言和跨领域的安全分析，为构建更稳健的检测系统奠定了实证基础。

实际应用

在实际应用中，该数据集被广泛集成于网络安全工具和平台，以增强实时威胁防护能力。例如，企业可将其特征提取方法部署于网络网关或浏览器扩展中，自动扫描用户访问的URL，及时拦截恶意网站。云服务提供商如Cloudflare也利用类似数据优化其API扫描服务，提升大规模环境下的检测效率。这些应用不仅降低了用户遭受网络钓鱼或恶意软件攻击的风险，还为自动化安全运维提供了可靠的数据支持。

数据集最近研究