多标签网站指纹识别数据集|网络安全数据集|隐私保护数据集
收藏数据集概述
数据集名称
Website-Fingerprinting-Library (WFlib)
数据集简介
WFlib 是一个基于 Pytorch 的开源库,专注于网站指纹识别攻击的研究。网站指纹识别是一种网络攻击,攻击者通过分析加密流量模式来推断用户访问的网站,即使无法直接查看流量内容。
数据集内容
- 攻击方法:包含 11 种基于深度学习的网站指纹识别攻击方法。
- 数据集:提供了多个数据集,涵盖封闭世界、开放世界以及多种防御机制下的流量数据。
数据集详情
攻击方法
数据集列表
数据集 | 监控网站数量 | 实例数量 | 简介 |
---|---|---|---|
CW.npz | 95 | 105730 | 封闭世界数据集。 |
OW.npz | 95 | 146446 | 开放世界数据集。 |
WTF-PAD.npz | 95 | 105730 | 包含 WTF-PAD 防御的数据集。 |
Front.npz | 95 | 95000 | 包含 Front 防御的数据集。 |
Walkie-Talkie.npz | 100 | 90000 | 包含 Walkie-Talkie 防御的数据集。 |
TrafficSliver.npz | 95 | 95000 | 包含 TrafficSliver 防御的数据集。 |
NCDrift_sup.npz | 93 | 21430 | 网络条件漂移数据集,包含优质流量。 |
NCDrift_inf.npz | 93 | 6882 | 网络条件漂移数据集,包含劣质流量。 |
Closed_2tab.npz | 100 | 58000 | 封闭世界场景下的 2-tab 数据集。 |
Closed_3tab.npz | 100 | 58000 | 封闭世界场景下的 3-tab 数据集。 |
Closed_4tab.npz | 100 | 58000 | 封闭世界场景下的 4-tab 数据集。 |
Closed_5tab.npz | 100 | 58000 | 封闭世界场景下的 5-tab 数据集。 |
Open_2tab.npz | 100 | 64000 | 开放世界场景下的 2-tab 数据集。 |
Open_3tab.npz | 100 | 64000 | 开放世界场景下的 3-tab 数据集。 |
Open_4tab.npz | 100 | 64000 | 开放世界场景下的 4-tab 数据集。 |
Open_5tab.npz | 100 | 64000 | 开放世界场景下的 5-tab 数据集。 |
数据集格式
- 数据集以
.npz
格式提供,包含两个值:X
和y
。X
表示单元序列,值为方向(如 1 或 -1)乘以时间戳。y
对应标签。
数据集使用
-
安装: sh git clone git@github.com:Xinhao-Deng/Website-Fingerprinting-Library.git pip install --user .
-
数据集下载:
- 数据集可从 Zenodo 下载,并放置在
./datasets
文件夹中。
- 数据集可从 Zenodo 下载,并放置在
-
数据集分割:
- 使用
dataset_split.py
脚本将数据集分割为训练集、验证集和测试集。
- 使用
训练与评估
- 提供了所有实验脚本,位于
./scripts/
文件夹中。 - 示例:使用
DF.sh
脚本在 CW 数据集上训练和评估 DF 攻击模型。
联系方式
- Xinhao Deng (dengxh23@mails.tsinghua.edu.cn)
- Yixiang Zhang (zhangyix24@mails.tsinghua.edu.cn)
致谢
感谢所有引用论文的作者。

红外谱图数据库
收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。
国家基础学科公共科学数据中心 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
中性笔商品在不同地区天猫平台的销售渗透率分析数据
销售渗透率通常定义为特定产品在潜在市场中的占有率。对公司天猫平台上中性笔商品在不同地区的销售渗透率进行分析,对于理解中性笔商品在不同地区的市场发展趋势、识别商品在不同地区的增长机会和潜在风险、指导公司选品规划和商品定价以及优化资源配置,具有重要的统计意义和实际应用价值。本数据也可为中性笔商品的供应商(生产厂商)和其他销售商同行在市场进入、产品开发、定价策略等方面提供参考。1.数据收集和预处理:(1)数据收集:收集公司在天猫平台上销售的中性笔商品在不同地区每季度的销售统计信息,具体包括商品类目、商品名称、销售渠道/平台、统计区域、统计年份和季度、本季度内单月最高销量、本季度内单月最低销量、本季度平均月销量。(2)数据预处理:对采集到的原始数据进行处理,去除缺失和异常数据。 2.建立销售渗透率分析模型:(1)计算本季度月均潜在销量:本季度月均潜在销量=本季度内单月最高销量-本季度内单月最低销量+本季度平均月销量;(2)计算本季度月均销售渗透率:本季度月均销售渗透率=(本季度平均月销量/本季度月均潜在销量)*100%;(3)销售渗透率分析:基于计算出的销售渗透率,根据区县划分不同的类别和级别,≥90%以上标记为“销售渗透率高”,50%-90%区间(不含50%和90%)内标记为“销售渗透率中等”,≤50%标记为“销售渗透率低”。分界线90%和50%通过公司内部与行业专家研讨确定。
浙江省数据知识产权登记平台 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录