five

MUD_dataset

收藏
github2022-04-11 更新2024-05-31 收录
下载链接:
https://github.com/Hritiksum/Phishing-URL-v5-IBM-Training_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了恶意URL的详细信息,如域名、注册商、注册商地址、组织、Alexa网站流量排名等,用于训练和测试ML模型以预测URL的有效性和钓鱼资产。

This dataset comprises detailed information on malicious URLs, including domain names, registrars, registrar addresses, organizations, and Alexa website traffic rankings. It is utilized for training and testing machine learning models to predict the validity of URLs and identify phishing assets.
创建时间:
2020-06-29
原始信息汇总

数据集概述

数据集名称

  • MUD_dataset
  • Malicious-Urlv5

数据集内容

  • 数据集包含URL的详细信息,包括其合法性、属性、名称、组织、地址、城市、州、邮编、国家、电子邮件、域名、Alexa排名、注册商和时间。

数据集结构

  • 数据集以表格形式组织,包含以下字段:
    • S.NO
    • URL
    • Property
    • Name
    • Organisation
    • Address
    • City
    • State
    • Zipcode
    • Country
    • E-mails
    • Domain
    • Alexa Rank
    • Registrar
    • time

数据集示例

S.NO URL Property Name Organisation Address City State Zipcode Country E-mails Domain Alexa Rank Registrar time
0 https://www.airtelxstream.in/search Legitimate airtelxstream.in None None None Delhi None IN None airtelxstream.in 5793 GoDaddy.com LLC 35:42.8
1 https://www.airtelxstream.in/livetv-channels/sony-sab/mwtv_livetvchannel_347 Legitimate airtelxstream.in None None None Delhi None IN None airtelxstream.in 5793 GoDaddy.com LLC 43:56.8
2 https://myjiocare.com/sony-liv-premium-account-free/ Legitimate MYJIOCARE.COM None india mumbai Maharashtra 421001 IN abuse-contact@publicdomainregistry.comnsk.rockstar97@gmail.comabuse@bigrock.com MYJIOCARE.COM 2272473 BigRock Solutions Ltd 46:49.2
3 https://www.youtube.com/watch?v=dnbkysr3hoo Legitimate YOUTUBE.COMyoutube.com Google LLC None None CA None US abusecomplaints@markmonitor.comwhoisrequest@markmonitor.com YOUTUBE.COMyoutube.com 2 MarkMonitor Inc. 49:58.2
4 https://www.youtube.com/watch?v=pyc61thl3o8 Legitimate YOUTUBE.COMyoutube.com Google LLC None None CA None US busecomplaints@markmonitor.comwhoisrequest@markmonitor.com YOUTUBE.COMyoutube.com 2 MarkMonitor Inc. 53:08.6

数据集用途

  • 用于预测URL的有效性和识别钓鱼资产。

数据集链接

搜集汇总
数据集介绍
main_image_url
构建方式
MUD_dataset的构建基于对恶意URL的检测与分析,通过动态抓取URL的敏感信息,如域名、注册商、组织信息、Alexa流量排名等,结合机器学习模型进行预测。数据集的生成过程依赖于实时网络爬虫技术,确保数据的时效性和多样性。每个URL的属性信息被系统化地记录,包括其合法性标签、地理位置、注册商信息等,形成了一个多维度的URL特征数据库。
特点
MUD_dataset的特点在于其多维度的URL特征描述,涵盖了域名、注册商、组织信息、Alexa排名等关键属性。数据集不仅包含合法URL,还收录了大量恶意URL样本,为网络安全研究提供了丰富的实验数据。此外,数据集通过动态抓取和实时分析,确保了数据的时效性和真实性,能够有效支持恶意URL检测模型的训练与验证。
使用方法
MUD_dataset的使用方法主要包括数据加载、特征提取和模型训练。用户可以通过GitHub提供的Jupyter Notebook脚本进行数据预处理和模型训练。数据集中的URL特征可直接用于机器学习模型的输入,结合Alexa排名、注册商信息等特征,构建恶意URL检测模型。此外,数据集还可用于评估不同检测算法的性能,为网络安全研究提供实验支持。
背景与挑战
背景概述
MUD_dataset是由研究人员Hritiksum等人创建的恶意URL检测数据集,旨在应对日益增长的网络安全威胁。随着互联网在商业和日常生活中的广泛应用,网络欺诈和恶意攻击事件呈指数级增长,严重威胁用户的隐私和财产安全。该数据集通过动态获取URL的敏感信息,如域名、注册商、Alexa排名等,帮助识别恶意URL和钓鱼网站。其核心研究问题在于如何通过自动化手段高效检测恶意URL,从而提升网络交易的安全性。MUD_dataset的发布为网络安全领域的研究提供了重要的数据支持,推动了恶意URL检测技术的发展。
当前挑战
MUD_dataset在构建和应用过程中面临多重挑战。首先,恶意URL检测领域本身具有高度动态性,攻击者不断更新策略以规避检测,这要求数据集能够及时捕捉最新的恶意行为模式。其次,数据集的构建依赖于对URL的实时分析和敏感信息的提取,这一过程需要处理海量数据并确保数据的准确性和完整性。此外,恶意URL的多样性和伪装性使得模型训练和测试的难度显著增加,如何设计高效的算法以区分合法与恶意URL成为关键挑战。最后,数据集的扩展和维护需要持续的技术投入,以应对不断变化的网络威胁环境。
常用场景
经典使用场景
MUD_dataset广泛应用于网络安全领域,特别是在恶意URL检测和网络钓鱼防护方面。该数据集通过收集和分析URL的多种属性,如域名、注册商信息、Alexa排名等,为研究人员提供了一个全面的数据基础,用于训练和测试恶意URL检测模型。其经典使用场景包括实时URL检测、网络流量监控以及安全策略的制定。
实际应用
在实际应用中,MUD_dataset被广泛用于构建实时恶意URL检测系统。例如,基于该数据集开发的Chrome扩展程序能够实时分析用户访问的URL,并在检测到潜在威胁时发出警告。此外,该数据集还被用于企业网络安全策略的制定,帮助企业在日常运营中防范网络钓鱼和恶意攻击。
衍生相关工作
MUD_dataset的发布催生了一系列相关研究工作,特别是在恶意URL检测和网络安全领域。基于该数据集,研究人员开发了多种机器学习模型和深度学习算法,用于提高恶意URL检测的准确性和效率。此外,该数据集还被用于开发实时监控工具和浏览器扩展程序,进一步推动了网络安全技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作