XSS Dataset
收藏github2017-07-30 更新2024-05-31 收录
下载链接:
https://github.com/ukarroum/xss-dataset-crawler
下载链接
链接失效反馈官方服务:
资源简介:
一个包含通过XSS攻击感染的页面和未感染页面的数据集,用于训练分类器。数据来源于XSSED和DMOZ网站。
A dataset containing pages infected by XSS attacks and uninfected pages, used for training classifiers. The data is sourced from XSSED and DMOZ websites.
创建时间:
2016-04-06
原始信息汇总
XSS Dataset Crawler 概述
数据集来源
- XSSED: 一个包含大量通过XSS感染的HTML页面的数据库,目前收录超过45,000个镜像页面。
- DMOZ: 一个包含数百万网站的目录,数据通过网站提供的content.rdf.u8.gz获取。
数据集内容
- 包含大量感染XSS的HTML页面和未感染的页面,用于训练分类器。
- 数据集中的页面将被处理,提取特征并格式化为矩阵,以便通过Matlab更方便地处理。
项目文件
- crawler.py: 主要程序。
- crawl.conf: 包含用于个性化爬虫的参数,如数据集大小等。
搜集汇总
数据集介绍

构建方式
XSS Dataset的构建采取Python编写的爬虫技术,从XSSED及DMOZ两大网站抓取大量HTML页面,其中既包括受XSS攻击感染的页面,也包括未受感染的页面,旨在为分类器训练提供数据基础。爬虫不仅收集数据,还提取特征,并将数据格式化为矩阵形式,便于Matlab处理。
特点
该数据集的一个重要特征是包含了两类页面:受XSS攻击的感染页面和非感染页面,这为构建能够区分这两类页面的分类器提供了理想的数据基础。数据来源于XSSED和DMOZ,确保了数据的多样性和广泛性,同时经过特征提取和格式化处理,提高了数据集的可利用性。
使用方法
使用XSS Dataset时,用户首先需要配置crawl.conf文件,以个性化爬虫参数,如数据集大小等。之后,运行crawler.py主程序进行数据抓取。数据抓取完成后,用户可利用爬虫预处理后的特征矩阵,进一步在Matlab环境中进行数据分析和模型训练。
背景与挑战
背景概述
XSS Dataset是一款由Python编写的爬虫工具所构建的数据集,旨在搜集和整理含有以及不含XSS攻击代码的网页,用于训练分类器模型。该数据集的创建时间为未知,由开发者通过爬取[XSSED](http://www.xssed.com)和[DMOZ](https://www.dmoz.org/)两大资源,汇集了超过45,000个感染XSS的网页镜像。该数据集的核心研究问题是提升机器学习模型对XSS攻击的检测能力,对网络安全领域产生了重要影响,为相关研究提供了宝贵的实验资源。
当前挑战
该数据集在构建过程中面临的挑战包括:1) 从众多网站中准确且高效地爬取大量数据;2) 在保证数据质量的同时,对爬取的网页进行特征提取,并转换为适合机器学习的矩阵格式。此外,数据集在解决XSS攻击检测领域的问题上,也面临着如何提高分类器准确率和鲁棒性的挑战,以及如何处理不断演变和更新的XSS攻击模式。
常用场景
经典使用场景
针对网络安全的领域背景,XSS Dataset是一个重要的数据集资源。该数据集最经典的使用场景在于,它为研究人员和开发人员提供了一组大规模的HTML页面样本,其中既包含通过XSS攻击感染的页面,也包含未感染的正常页面。这些样本被广泛用于训练分类器,以识别和防御XSS攻击,确保网络环境的稳定和安全。
解决学术问题
在学术研究领域,XSS Dataset解决了如何有效获取和分类XSS攻击样本的问题。它为研究XSS攻击模式、评估防御机制的有效性以及开发新的检测技术提供了基础数据。该数据集的存在显著降低了相关研究的门槛,并推动了网络安全领域的发展。
衍生相关工作
基于XSS Dataset,已经衍生出多项相关的研究工作。其中包括构建高效XSS攻击检测模型、提出新的XSS攻击类型和防御策略等。这些工作不仅扩展了原始数据集的应用范围,也为网络安全领域带来了新的理论和实践进展。
以上内容由遇见数据集搜集并总结生成



