Malicious URL v5

github2020-11-04 更新2024-05-31 收录

下载链接：

https://github.com/abhisheksaxena1998/Dataset-and-training-testing-Malicious-URL-v5-IBM

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练和测试恶意URL检测器，包含了多个URL及其详细属性，如域名、注册商、注册商地址、组织、Alexa网站流量排名等。

This dataset is designed for training and testing malicious URL detectors. It encompasses a variety of URLs along with their detailed attributes, such as domain names, registrars, registrar addresses, organizations, and Alexa website traffic rankings.

创建时间：

2020-07-18

原始信息汇总

数据集概述

数据集内容

目的：用于训练和测试恶意URL检测器。
数据结构：
- 列信息：
  - S.NO
  - URL
  - Property
  - Name
  - Organisation
  - Address
  - City
  - State
  - Zipcode
  - Country
  - E-mails
  - Domain
  - Alexa Rank
  - Registrar
  - time
- 示例数据：
  - 示例1:
    - URL: https://www.airtelxstream.in/search
    - Property: Legitimate
    - Domain: airtelxstream.in
    - Alexa Rank: 5793
    - Registrar: GoDaddy.com LLC
  - 示例2:
    - URL: https://www.airtelxstream.in/livetv-channels/sony-sab/mwtv_livetvchannel_347
    - Property: Legitimate
    - Domain: airtelxstream.in
    - Alexa Rank: 5793
    - Registrar: GoDaddy.com LLC
  - 示例3:
    - URL: https://myjiocare.com/sony-liv-premium-account-free/
    - Property: Legitimate
    - Domain: MYJIOCARE.COM
    - Alexa Rank: 2272473
    - Registrar: BigRock Solutions Ltd
  - 示例4:
    - URL: https://www.youtube.com/watch?v=dnbkysr3hoo
    - Property: Legitimate
    - Domain: YOUTUBE.COM
    - Alexa Rank: 2
    - Registrar: MarkMonitor Inc.

数据集应用

功能：预测URL的有效性和钓鱼资产。
数据获取：获取URL的敏感和动态数据，如域名、注册商、注册商地址、组织、Alexa网络流量排名等。

钓鱼网页示例

包含多个知名品牌的钓鱼网页截图，如WHO、英国政府、ChaseBank、Netflix、Adobe、Facebook、Microsoft、Paypal、Yahoo等。

搜集汇总

数据集介绍

构建方式

Malicious URL v5数据集的构建基于对互联网URL的实时监测与分析，通过MUD应用程序动态抓取URL的敏感信息，包括域名、注册商、注册地址、所属组织以及Alexa网络流量排名等。数据采集过程中，系统自动记录每个URL的属性、名称、组织、地址、城市、州、邮编、国家、电子邮件、域名、Alexa排名、注册商及时间戳等信息，确保数据的全面性与时效性。

特点

该数据集的特点在于其多维度的URL信息覆盖，不仅包含URL的基本属性，还涉及注册商、组织及地理位置等详细信息。此外，数据集还提供了Alexa排名等网络流量数据，为恶意URL检测提供了丰富的特征维度。数据集中的URL样本涵盖了合法与恶意两类，并通过可视化示例展示了多种钓鱼网页的形态，为研究恶意URL的识别与防御提供了直观参考。

使用方法

使用Malicious URL v5数据集时，研究人员可通过分析URL的多维度特征，构建机器学习或深度学习模型以检测恶意URL。数据集中的Alexa排名、注册商信息等可作为模型的重要输入特征。此外，数据集提供的钓鱼网页示例可用于训练图像识别模型，进一步提升恶意URL检测的准确性。用户还可通过Chrome扩展程序实时验证URL的安全性，结合数据集进行动态分析与验证。

背景与挑战

背景概述

随着互联网的普及，网络犯罪如网络盗窃和欺诈行为呈指数级增长，严重威胁着在线交易的安全性。在此背景下，Malicious URL v5数据集应运而生，旨在通过分析URL的多种属性，如域名、注册商、Alexa排名等，来预测URL的合法性和潜在的钓鱼风险。该数据集由IBM的研究团队开发，主要用于训练和测试恶意URL检测器，其应用包括一个实时数据分析门户和一个Chrome扩展程序，以增强用户的上网安全。

当前挑战

Malicious URL v5数据集面临的挑战主要集中在两个方面。首先，恶意URL的检测本身是一个复杂的任务，因为攻击者不断更新其策略以逃避检测，这就要求数据集能够持续更新以包含最新的恶意URL样本。其次，数据集的构建过程中，如何准确、高效地收集和标注大量URL数据，同时确保数据的多样性和代表性，是一个技术上的难题。此外，处理和分析这些数据需要强大的计算资源和复杂的算法支持，以应对数据的高维性和动态变化。

常用场景

经典使用场景

在网络安全领域，Malicious URL v5数据集被广泛应用于恶意URL检测系统的训练与测试。通过分析URL的域名、注册商、Alexa排名等动态数据，该数据集帮助研究人员和开发者构建高效的恶意URL识别模型，从而提升网络交易和在线业务的安全性。

实际应用

在实际应用中，Malicious URL v5数据集被集成到浏览器扩展和在线分析平台中，帮助用户实时检测和拦截恶意URL。例如，其Chrome扩展程序能够在用户访问潜在危险网站时发出警告，保护用户的隐私和财产安全。此外，该数据集还被用于企业级安全系统的开发，提升整体网络安全防护能力。

衍生相关工作

基于Malicious URL v5数据集，许多经典的研究工作得以展开。例如，研究人员开发了基于机器学习的恶意URL分类模型，利用该数据集进行训练和验证。此外，该数据集还推动了网络钓鱼检测技术的进步，衍生出多种针对特定场景的检测工具和算法，为网络安全领域的研究和应用提供了重要支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集