pirocheto/phishing-url|网络安全数据集|钓鱼检测数据集
收藏数据集概述
基本信息
- 数据集名称: TabNetone
- 数据集大小: n<1K
- 语言: 英语 (en)
- 任务类别:
- 文本分类
- 表格分类
- 令牌分类
- 文本到文本生成
- 标签:
- 网络钓鱼
- URL
- 安全
- 许可证: CC-BY-4.0
数据集内容
- 包含的URL数量: 11430
- 提取的特征数量: 87
- 特征分类:
- 结构和语法相关的URL特征: 56
- 对应页面内容特征: 24
- 通过查询外部服务提取的特征: 7
- 数据集平衡性: 50% 网络钓鱼URL, 50% 合法URL
- 训练与测试集划分: 训练集占2/3, 测试集占1/3
数据集使用
- 目的: 作为机器学习基准用于网络钓鱼检测系统
- 加载方式:
- 使用
datasets
库 - 使用
pandas
和huggingface_hub
- 仅使用
pandas
- 使用
引用信息
-
BibTeX格式:
@article{Hannousse_2021, title={Towards benchmark datasets for machine learning based website phishing detection: An experimental study}, volume={104}, ISSN={0952-1976}, url={http://dx.doi.org/10.1016/j.engappai.2021.104347}, DOI={10.1016/j.engappai.2021.104347}, journal={Engineering Applications of Artificial Intelligence}, publisher={Elsevier BV}, author={Hannousse, Abdelhakim and Yahiouche, Salima}, year={2021}, month=sep, pages={104347} }
-
APA格式:
Hannousse, A., & Yahiouche, S. (2021). Towards benchmark datasets for machine learning based website phishing detection: An experimental study. Engineering Applications of Artificial Intelligence, 104, 104347.

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
MedChain
MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。
arXiv 收录
SWaT Dataset
SWaT Dataset是一个用于工业控制系统(ICS)安全研究的数据集,包含了模拟的网络攻击和正常操作的数据。该数据集由新加坡科技设计大学(Singapore University of Technology and Design)发布,旨在帮助研究人员开发和测试用于检测工业控制系统中网络攻击的算法和模型。
itrust.sutd.edu.sg 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录