five

GlyphNet

收藏
arXiv2023-06-18 更新2024-07-30 收录
下载链接:
https://github.com/Akshat4112/Glyphnet
下载链接
链接失效反馈
官方服务:
资源简介:
GlyphNet是由斯图加特大学创建的一个包含400万条真实和同形异义域名图像的数据集。该数据集通过从Domains Project获取的200万个真实域名,利用高斯采样技术生成同形异义域名。数据集的创建旨在通过图像识别技术,提高对同形异义攻击的检测能力,特别是在网络安全领域中,用于防止信息盗窃和恶意软件攻击。GlyphNet数据集的应用展示了如何利用基于注意力的卷积神经网络来区分真实域名与伪造域名,从而提升网络安全防护水平。

GlyphNet is a dataset developed by the University of Stuttgart, which contains 4 million real and homoglyph domain name images. It generates homoglyph domain names via Gaussian sampling techniques using 2 million real domain names sourced from the Domains Project. The dataset was created to enhance the detection of homoglyph attacks through image recognition technologies, specifically for preventing information theft and malware attacks in the field of cybersecurity. The application of the GlyphNet dataset illustrates how to utilize attention-based convolutional neural networks to distinguish between real and fraudulent domain names, thereby improving the level of cybersecurity protection.
提供机构:
斯图加特大学
创建时间:
2023-06-18
原始信息汇总

GlyphNet: Homoglyph domains dataset and detection using attention-based Convolutional Neural Networks

数据集概述

GlyphNet 项目旨在使用基于注意力机制的卷积神经网络(CNN)检测同形异义攻击。该项目利用域名图像数据集(真实域名和同形异义域名)来训练模型。

数据集内容

  • data/: 包含项目中使用的图像数据集。

使用指南

  • 遵循 requirements.txt 中的安装说明。
  • 参考 Jupyter Notebooks 获取详细的方法和实验说明。

贡献

欢迎对检测方法和数据集质量进行改进的贡献。请遵守贡献指南。

许可证

该项目采用 MIT 许可证。

搜集汇总
数据集介绍
main_image_url
构建方式
在网络安全领域,同形异义词攻击因其视觉欺骗性而构成严峻挑战。GlyphNet数据集的构建采用了系统化的生成策略,以应对现有数据稀缺的问题。该数据集基于公开的活跃域名资源,从中选取了200万个真实域名作为基础。通过一种新颖的同形异义词生成算法,利用高斯采样从字形池中选取噪声字符,对其中100万个域名进行单字符替换,对另外100万个进行双字符替换,从而生成了总计200万个同形异义域名。最终,将真实域名与生成域名合并,形成了一个包含400万个样本的平衡图像数据集。每个域名字符串均被渲染为150×150像素的灰度图像,字体采用ARIAL,以确保视觉特征的统一性。
特点
GlyphNet数据集在同形异义词攻击检测研究中展现出若干显著特征。其规模庞大,包含400万张图像,远超同类数据集,为训练复杂的深度学习模型提供了充分的数据基础。数据集构成均衡,真实域名与同形异义域名各占一半,避免了类别不平衡可能带来的模型偏差。更重要的是,其同形异义域名的生成不依赖于成对的真实域名,而是通过基于高斯采样的随机替换算法独立产生,这模拟了现实攻击中无配对数据的场景,极大地增强了数据集的现实代表性与泛化能力。图像以统一的视觉格式呈现,直接聚焦于字形本身的视觉差异,为基于计算机视觉的检测方法提供了理想的输入。
使用方法
该数据集主要用于训练和评估同形异义词攻击检测模型,尤其适用于基于图像分类的深度学习方法。研究人员可将数据按7:2:1的比例划分为训练集、验证集和测试集。模型输入为渲染后的域名灰度图像,输出为二分类标签(真实或同形异义)。在具体应用中,待检测的域名字符串需先经过相同的预处理流程转换为图像,再输入到训练好的模型中进行预测。论文中提出的注意力卷积神经网络基线模型即在此数据集上训练,并取得了优异的性能。该数据集及其基线实现已公开,可供社区直接用于模型开发、性能比较以及新方法的验证,推动该领域向更实用的无配对数据检测场景发展。
背景与挑战
背景概述
在网络安全领域,同形异义字攻击作为一种视觉欺骗手段,长期威胁着用户与系统的安全。GlyphNet数据集由Akshat Gupta等人于2022年创建,旨在应对此类攻击的检测难题。该数据集包含400万张真实域名与同形异义字域名的图像,其核心研究问题聚焦于通过视觉特征识别恶意域名,从而突破传统字符串比对方法的局限。GlyphNet的推出为同形异义字检测研究提供了大规模基准数据,显著推动了基于深度学习的网络安全防御技术的发展,并在学术界与工业界均产生了广泛影响。
当前挑战
GlyphNet数据集所解决的领域问题在于同形异义字攻击的精准检测,其挑战主要体现在视觉相似性极高导致的分类困难,以及攻击变体多样性带来的模型泛化需求。在构建过程中,研究人员面临两大挑战:一是生成高质量且贴近真实攻击场景的同形异义字数据,需平衡随机性与视觉欺骗性;二是从海量域名中筛选并渲染图像时,需克服计算资源限制与数据噪声干扰,确保数据集的规模与质量兼具。
常用场景
经典使用场景
在网络安全领域,同形异义字攻击利用视觉相似的字符构造欺诈性域名,对人类和机器构成双重威胁。GlyphNet数据集通过提供400万真实与同形异义字域名的图像数据,为检测此类攻击奠定了基准。其经典使用场景在于训练基于注意力的卷积神经网络,模型能够直接从单张域名图像中识别同形异义字,无需依赖成对的真实与欺诈域名对比,有效解决了实际环境中数据非配对的难题。该数据集支持端到端的检测系统开发,显著提升了模型在复杂攻击模式下的泛化能力与鲁棒性。
实际应用
在实际网络防御中,GlyphNet支撑的检测系统可集成至企业安全网关或浏览器插件,实时扫描用户访问的域名图像。例如,当用户点击疑似钓鱼链接时,系统能即时分析域名视觉特征,拦截同形异义字欺诈页面,防止信息窃取或恶意软件入侵。该技术已应用于电子邮件安全过滤、学术论文抄袭检测工具增强等领域,帮助微软等机构识别并移除欺诈域名。其高效的单图像处理机制大幅降低了计算延迟,为金融、教育及政府机构提供了可部署的主动防护方案。
衍生相关工作
GlyphNet的发布催生了多项创新研究,例如基于孪生神经网络的同形异义字检测方法通过对比学习提升配对数据下的准确率;PhishGAN利用生成对抗网络合成域名图像,以扩充训练数据增强模型泛化性。此外,结合视觉编辑距离的混合模型进一步优化了字符级差异度量,而注意力机制与卷积网络的融合架构已成为该领域的主流范式。这些工作不仅深化了对同形异义字攻击本质的理解,还推动了跨模态安全检测技术的发展,为后续多语言同形异义字数据集的构建提供了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作