PhishGuard EU Dataset
收藏github2026-04-20 更新2026-04-24 收录
下载链接:
https://github.com/IoannisBouzas/phishguard-eu-dataset
下载链接
链接失效反馈官方服务:
资源简介:
一个精心策划并持续更新的数据集,包含179个欧洲合法(良性)网站,用于钓鱼检测研究。
A carefully curated and continuously updated dataset containing 179 legitimate (benign) European websites for phishing detection research.
创建时间:
2026-04-14
原始信息汇总
PhishGuard EU 数据集概述
基本概况
- 数据集名称:PhishGuard EU Dataset
- 数据集规模:包含 179 条被标记为良性(benign)的欧洲网站记录
- 覆盖范围:数据来自 24 个国家,涵盖 11 个类别
数据组成
每条记录包含以下字段:
domain(域名)url(URL)country(国家)countryCode(国家代码)city(城市)category(类别)subcategory(子类别)language(语言)tls(TLS 加密状态)registrar(注册商)yearEstablished(建立年份)description(描述)
类别列表
政府 · 科技 · 银行与金融 · 教育 · 新闻与媒体 · 电子商务 · 交通运输 · 工业 · 旅游 · 医疗 · 文化
用途
- 训练/测试钓鱼检测系统
- 对 LLM 分类器和传统机器学习模型进行基准测试
- 比较可疑网站与已验证的合法网站
文件与资源
- 数据文件:
dataset.json(包含全部 179 条数据,所有标签为benign) - 方法论文档:
search-methodology.pplx.md(详细说明搜索与验证方法,包括每日发现日志、关键词策略与验证关卡)
交互式仪表盘
基于 React + Express + SQLite 构建,功能包括:
- 总览面板:KPI 卡片与图表
- 数据集浏览:支持搜索与过滤
- 深度分析:注册商分布、TLD 细分、域名年龄、热门城市
- 数据导出:支持 CSV 和 JSON 格式
本地运行方式
开发服务器:npm run dev(默认运行于 http://localhost:5000)
生产构建:npm run build 后运行 NODE_ENV=production node dist/index.cjs
许可
数据集仅用于学术与研究目的。
搜集汇总
数据集介绍

构建方式
PhishGuard EU Dataset 是一个精心筛选并持续更新的数据集,专为钓鱼检测研究设计。其构建过程基于系统化的搜索与验证方法论,包含详细的每日发现日志、关键词策略及验证关卡。研究者通过多轮筛选,从24个欧洲国家及11个类别中,收集了179个经确认的良性网站。每个条目均标注为 benign,并涵盖 domain、url、country、countryCode、city、category、subcategory、language、tls、registrar、yearEstablished、description 等多维属性,确保了数据的丰富性与可靠标注。
特点
该数据集的核心特色在于其地域聚焦与类别多样性,覆盖了政府、科技、银行金融、教育、新闻媒体、电子商务、交通、工业、旅游、医疗及文化等关键领域,为钓鱼检测模型提供了广泛的正样本基准。数据不仅包含基础域名与URL,还融合了城市级别的地理信息、TLS配置、注册商、域名年龄等元数据,有助于深入分析合法网站的共性特征。此外,数据集的持续更新机制使其能够适应动态变化的网络环境,增强模型训练的时效性。
使用方法
用户可直接利用 dataset.json 文件进行模型训练与测试,适用于传统机器学习及LLM分类器的基准对比。为了提升数据探索效率,项目还提供了一个基于 React、Express 与 SQLite 构建的交互式仪表盘,支持可视化概览、搜索筛选、深度分析(如注册商分布、顶级域名构成、域龄统计)以及 CSV/JSON 格式的数据导出。用户可在本地通过简单的 npm 命令启动开发或生产环境,便捷地访问数据集及其分析功能。
背景与挑战
背景概述
随着网络钓鱼攻击的日益猖獗,针对欧洲地区的网络威胁呈现出高度本地化和隐蔽化的趋势。在此背景下,PhishGuard EU Dataset于近期由研究团队构建并持续更新,旨在为钓鱼检测领域提供一份高质量、高覆盖率的欧洲合法网站基准数据集。该数据集包含来自24个国家的179条精心核验的良性网站记录,覆盖政府、金融、教育等11个核心类别,专门用于训练和评估基于大型语言模型及传统机器学习方法的钓鱼检测系统。其核心研究问题聚焦于如何通过多维度特征(如域名年龄、TLS配置、注册商信息)来精准区分合法网站与潜在的钓鱼站点。该数据集的问世为欧洲区域的网络安全研究提供了标准化的评测基线,尤其在跨语言与跨文化场景下推动了钓鱼检测模型的泛化能力提升。
当前挑战
该数据集面临的核心挑战在于构建过程中对数据真实性与覆盖度的平衡。首先,如何从海量网站中高效筛选出已验证的良性样本是一大难题,需依赖多重验证门控机制与每日更新的搜寻日志,以避免样本被污染或过时。其次,数据集的规模与地理覆盖范围存在显著局限,仅涵盖179个条目与24个国家,难以全面反映欧洲各国复杂的网站生态与多语种、多文化背景下的合法域名分布规律。此外,具体领域问题方面,现有的钓鱼检测模型常因缺乏针对欧洲特色的基准数据而误判合规站点,PhishGuard EU Dataset虽填补了这一空白,但其有限的样本数量可能影响模型在实际场景中的鲁棒性与跨地域迁移能力,亟需通过持续扩展与多源验证机制来应对不断演变的网络威胁形态。
常用场景
经典使用场景
在网络安全领域,钓鱼检测研究长期受困于高质量良性网站样本的匮乏,尤其是在欧洲多语言、多法规环境下,获取经过严格验证的合法网站数据集尤为艰难。PhishGuard EU Dataset应运而生,其经典应用场景聚焦于钓鱼检测系统的训练与测试环节。研究者可凭借该数据集中179条覆盖24个国家、11个类别的合法网站条目,构建对比实验的基准良性样本集,从而精准评估机器学习模型与大型语言模型分类器区分钓鱼网站与真实欧洲网站的能力。该数据集还特别适用于验证可疑站点分析算法,通过将未标记的站点与已确证合法的参照物进行比对,有效降低误报率。其结构化字段包含域名、URL、TLS配置、注册商及域名年限等关键特征,为特征工程与模型训练提供了丰富的语义基础。
实际应用
在现实世界中,PhishGuard EU Dataset的应用已超越实验室边界,嵌入到欧洲企业级安全监控与合规审查流程之中。安全运维团队可利用该数据集训练定制的钓鱼页面过滤器,尤其针对政府、银行与电子商务等高危行业,实现对伪装成欧洲合法机构的欺诈网站的即时拦截。其交互式仪表盘集成了KPI看板、注册商分布分析与域名年龄统计,帮助分析师快速识别异常注册模式与新兴钓鱼策略。此外,数据集支持CSV与JSON导出,可无缝集成到SIEM系统与威胁情报平台中,自动化更新良性域名的白名单。在合规层面,该数据集助力金融机构满足GDPR与PSD2对第三方验证与安全审计的要求,通过确证网站的真实来源,有效降低因误封合法业务页面而导致的用户信任损失与运营中断。
衍生相关工作
自PhishGuard EU Dataset发布以来,它已催生了一系列富有影响力的衍生研究工作。研究者基于该数据集构建了面向欧洲多语言场景的钓鱼检测基准测试平台,用于横向对比传统机器学习模型与新兴大型语言模型在零样本与少样本设定下的分类表现。部分工作进一步扩展了数据集的应用边界,将其域名字段与WHOIS历史记录关联,开发了时间感知的域名信誉评分系统。另有团队利用数据集中城市与类别标签,探索了地域特异性钓鱼策略的识别方法,生成了钓鱼热点地图与行业攻击趋势报告。最值得关注的是,该数据集的方法学——包括每日发现日志、关键词策略与验证门控机制——已被其他区域数据集构建项目借鉴,形成了可复用的标准化良性网站采集流程。这些衍生工作不仅反哺了钓鱼检测领域的方法论创新,也树立了高质量开源数据集建构的范式标杆。
以上内容由遇见数据集搜集并总结生成



