Phishing Website Detection Dataset|网络安全数据集|钓鱼网站检测数据集
收藏数据集概述
数据集内容
- 类型: 包含标记的网络钓鱼和合法网站样本。
- 特征: 每个样本包含网站的多种特征,如URL结构、网站内容及其他相关属性。
应用目的
- 目的: 构建模型以准确区分网络钓鱼网站和合法网站。
使用的机器学习算法
- 决策树分类器
- 多层感知器(MLPs)
- 随机森林分类器
- XGBoost分类器
- 自动编码器神经网络
- 支持向量机(SVM)
模型评估与结果
- 评估指标: 准确率、精确率、召回率和F1分数。
- 最佳模型: XGBoost分类器,因其达到最高准确率而被认为是最有效的模型。

Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录
长江干流实时水位观测数据集(2024年)
该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。
国家地球系统科学数据中心 收录
MedChain
MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。
arXiv 收录
Obstacle-dataset OD
该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。
github 收录