five

多标签网站指纹识别数据集|网络安全数据集|隐私保护数据集

收藏
arXiv2025-01-22 更新2025-01-24 收录
网络安全
隐私保护
下载链接:
https://github.com/Xinhao-Deng/Website-Fingerprinting-Library
下载链接
链接失效反馈
资源简介:
该数据集由清华大学网络科学与网络空间研究院的研究团队创建,旨在支持多标签网站指纹识别(WF)攻击的研究。数据集包含超过50万条多标签Tor浏览会话数据,涵盖了2021年5月至2021年12月以及2022年6月至2022年11月的时间段。数据集中包含了多种现实世界的复杂性,如不同版本的Tor浏览器共存、用户访问网站的子页面以及从不同视角收集的网络流量。数据集的创建过程涉及从Tor网络中收集加密流量,并通过多级流量聚合模块提取局部模式特征。该数据集的应用领域主要集中在网络安全和隐私保护,旨在解决多标签浏览场景下的网站指纹识别问题,特别是在面对各种WF防御机制时的鲁棒性问题。
提供机构:
清华大学网络科学与网络空间研究院
创建时间:
2025-01-22
原始信息汇总

数据集概述

数据集名称

Website-Fingerprinting-Library (WFlib)

数据集简介

WFlib 是一个基于 Pytorch 的开源库,专注于网站指纹识别攻击的研究。网站指纹识别是一种网络攻击,攻击者通过分析加密流量模式来推断用户访问的网站,即使无法直接查看流量内容。

数据集内容

  • 攻击方法:包含 11 种基于深度学习的网站指纹识别攻击方法。
  • 数据集:提供了多个数据集,涵盖封闭世界、开放世界以及多种防御机制下的流量数据。

数据集详情

攻击方法

数据集列表

数据集 监控网站数量 实例数量 简介
CW.npz 95 105730 封闭世界数据集。
OW.npz 95 146446 开放世界数据集。
WTF-PAD.npz 95 105730 包含 WTF-PAD 防御的数据集。
Front.npz 95 95000 包含 Front 防御的数据集。
Walkie-Talkie.npz 100 90000 包含 Walkie-Talkie 防御的数据集。
TrafficSliver.npz 95 95000 包含 TrafficSliver 防御的数据集。
NCDrift_sup.npz 93 21430 网络条件漂移数据集,包含优质流量。
NCDrift_inf.npz 93 6882 网络条件漂移数据集,包含劣质流量。
Closed_2tab.npz 100 58000 封闭世界场景下的 2-tab 数据集。
Closed_3tab.npz 100 58000 封闭世界场景下的 3-tab 数据集。
Closed_4tab.npz 100 58000 封闭世界场景下的 4-tab 数据集。
Closed_5tab.npz 100 58000 封闭世界场景下的 5-tab 数据集。
Open_2tab.npz 100 64000 开放世界场景下的 2-tab 数据集。
Open_3tab.npz 100 64000 开放世界场景下的 3-tab 数据集。
Open_4tab.npz 100 64000 开放世界场景下的 4-tab 数据集。
Open_5tab.npz 100 64000 开放世界场景下的 5-tab 数据集。

数据集格式

  • 数据集以 .npz 格式提供,包含两个值:Xy
    • X 表示单元序列,值为方向(如 1 或 -1)乘以时间戳。
    • y 对应标签。

数据集使用

  • 安装: sh git clone git@github.com:Xinhao-Deng/Website-Fingerprinting-Library.git pip install --user .

  • 数据集下载

    • 数据集可从 Zenodo 下载,并放置在 ./datasets 文件夹中。
  • 数据集分割

    • 使用 dataset_split.py 脚本将数据集分割为训练集、验证集和测试集。

训练与评估

  • 提供了所有实验脚本,位于 ./scripts/ 文件夹中。
  • 示例:使用 DF.sh 脚本在 CW 数据集上训练和评估 DF 攻击模型。

联系方式

  • Xinhao Deng (dengxh23@mails.tsinghua.edu.cn)
  • Yixiang Zhang (zhangyix24@mails.tsinghua.edu.cn)

致谢

感谢所有引用论文的作者。

AI搜集汇总
数据集介绍
main_image_url
构建方式
多标签网站指纹识别数据集的构建基于大规模的多标签Tor浏览会话数据收集。研究团队开发了一个自动化Tor浏览工具,部署在40个不同地区的云服务器上,模拟全球范围内的Tor客户端。数据收集分为两个阶段,分别从2021年5月至12月和2022年6月至11月进行。通过多种方法过滤噪声流量,确保数据集的高质量。数据集包含七类数据,涵盖了不同标签数量(2至5个标签)的浏览会话,并考虑了多种现实世界的复杂性,如不同Tor版本共存、客户端访问子页面以及流量采集点的多样性。
特点
该数据集的特点在于其规模庞大且多样化,涵盖了超过50万次的多标签Tor浏览会话。数据集不仅包含封闭世界场景(客户端仅访问Alexa Top 100网站),还包含开放世界场景(客户端访问任意网站)。此外,数据集还考虑了多种网站指纹防御机制(如WTF-PAD、Front、RegulaTor等)对流量模式的影响。每个浏览会话的流量被划分为多个短流量段,从中提取包级和突发级聚合特征,以捕捉不同网站的局部模式。这种多层次的流量聚合特征使得数据集能够有效应对多标签浏览和防御机制带来的噪声干扰。
使用方法
该数据集的使用方法主要围绕多标签分类问题展开。研究人员将多标签网站指纹攻击建模为多标签分类问题,并通过多个并行分类器来解决。每个分类器负责计算特定网站被访问的可能性,最终通过预定义的阈值输出所有监控网站的完整标签集。数据集中的流量被划分为多个短流量段,从中提取包级和突发级聚合特征,并通过改进的自注意力机制分析这些局部模式之间的相关性,从而有效识别网站。实验结果表明,该方法在多种现实场景中表现出色,尤其是在面对动态标签数量和防御机制时,仍能保持较高的识别准确率。
背景与挑战
背景概述
多标签网站指纹识别数据集由清华大学网络科学与网络空间研究院的研究团队于2023年提出,旨在解决多标签浏览场景下的网站指纹识别问题。该数据集的核心研究问题是如何在用户同时打开多个浏览器标签的情况下,准确识别用户访问的网站。传统的网站指纹识别方法通常假设用户每次只访问一个网站,但在实际应用中,用户往往会同时打开多个标签,导致网络流量模式混合,难以准确识别。该数据集的提出填补了这一领域的空白,推动了多标签网站指纹识别技术的发展,并对网络安全和隐私保护领域产生了深远影响。
当前挑战
多标签网站指纹识别数据集面临的挑战主要包括两个方面。首先,在领域问题方面,多标签浏览场景下的网络流量模式复杂,多个网站的流量混合在一起,传统的单标签识别方法难以应对。其次,在数据集构建过程中,研究人员需要克服流量分割、噪声过滤以及动态标签数量等难题。此外,现有的多标签网站指纹识别方法通常依赖于已知的标签数量,而在实际应用中,用户打开的标签数量是动态且未知的,这进一步增加了数据集的构建难度。如何在不依赖先验知识的情况下,准确识别多标签浏览场景中的网站,是该数据集面临的核心挑战。
常用场景
经典使用场景
多标签网站指纹识别数据集(Multi-tab Website Fingerprinting Dataset)在网络安全领域中被广泛用于研究和评估多标签浏览场景下的网站指纹识别攻击。该数据集通过模拟用户在Tor网络中同时打开多个浏览器标签的行为,生成了大量混合的网络流量数据。这些数据为研究人员提供了一个真实的实验环境,用于开发和测试能够识别多标签浏览会话中访问网站的新型攻击算法。特别是在Tor等匿名通信网络中,传统的单标签网站指纹识别攻击往往失效,而该数据集则为解决这一问题提供了关键支持。
实际应用
多标签网站指纹识别数据集在实际应用中具有重要的价值。首先,它可以帮助安全研究人员评估和提升匿名通信网络(如Tor)的隐私保护能力。通过分析多标签浏览场景下的流量模式,研究人员可以设计出更有效的防御机制,抵御潜在的网站指纹识别攻击。其次,该数据集还可用于执法机构的网络监控,帮助识别和追踪暗网中的非法活动。此外,企业和组织也可以利用该数据集来测试其网络流量的隐私保护措施,确保用户数据的安全性。
衍生相关工作
多标签网站指纹识别数据集催生了一系列相关研究工作。例如,基于该数据集开发的ARES框架,通过引入Transformer模型和多标签分类机制,显著提升了多标签浏览场景下的攻击效果。此外,该数据集还推动了其他多标签网站指纹识别攻击算法的发展,如BAPM(Block Attention Profiling Model)和TMWF(Transformer-based Multi-tab Website Fingerprinting)。这些工作进一步扩展了多标签攻击的研究边界,并在对抗防御机制方面取得了显著进展。同时,该数据集也为匿名通信网络的防御机制研究提供了重要参考,推动了如WTF-PAD和RegulaTor等防御技术的改进。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

红外谱图数据库

收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。

国家基础学科公共科学数据中心 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

中性笔商品在不同地区天猫平台的销售渗透率分析数据

销售渗透率通常定义为特定产品在潜在市场中的占有率。对公司天猫平台上中性笔商品在不同地区的销售渗透率进行分析,对于理解中性笔商品在不同地区的市场发展趋势、识别商品在不同地区的增长机会和潜在风险、指导公司选品规划和商品定价以及优化资源配置,具有重要的统计意义和实际应用价值。本数据也可为中性笔商品的供应商(生产厂商)和其他销售商同行在市场进入、产品开发、定价策略等方面提供参考。1.数据收集和预处理:(1)数据收集:收集公司在天猫平台上销售的中性笔商品在不同地区每季度的销售统计信息,具体包括商品类目、商品名称、销售渠道/平台、统计区域、统计年份和季度、本季度内单月最高销量、本季度内单月最低销量、本季度平均月销量。(2)数据预处理:对采集到的原始数据进行处理,去除缺失和异常数据。 2.建立销售渗透率分析模型:(1)计算本季度月均潜在销量:本季度月均潜在销量=本季度内单月最高销量-本季度内单月最低销量+本季度平均月销量;(2)计算本季度月均销售渗透率:本季度月均销售渗透率=(本季度平均月销量/本季度月均潜在销量)*100%;(3)销售渗透率分析:基于计算出的销售渗透率,根据区县划分不同的类别和级别,≥90%以上标记为“销售渗透率高”,50%-90%区间(不含50%和90%)内标记为“销售渗透率中等”,≤50%标记为“销售渗透率低”。分界线90%和50%通过公司内部与行业专家研讨确定。

浙江省数据知识产权登记平台 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录