five

钓鱼网站数据集

收藏
国家基础学科公共科学数据中心2026-01-17 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=6967bdac195d26230e9b11a6&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集聚焦钓鱼网站检测,融合网页URL与首页截图,支撑多模态安全模型研发。采集自公开数据与安全渠道,经编码修复、图像质量评估、OCR文本提取及类别平衡重采样等处理,确保数据准确完整,可用于网页风险分析及多模态学习,具高复用价值。

This dataset focuses on phishing website detection, integrating webpage URLs and homepage screenshots to support the development of multimodal security models. Collected from public datasets and security-related channels, it has undergone post-processing steps including encoding correction, image quality assessment, OCR text extraction, and class-balanced resampling, ensuring the accuracy and completeness of the data. This dataset can be applied to webpage risk analysis and multimodal learning, and possesses high reusability.
提供机构:
北京理工大学
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
钓鱼网站数据集是一个专注于钓鱼网站检测的多模态数据集,融合网页URL和首页截图,适用于网页风险分析和多模态学习。数据集来源于公开数据和安全渠道,经过编码修复、图像质量评估、OCR文本提取及类别平衡重采样等处理,确保数据准确完整,具有高复用价值。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务