多标签网站指纹识别数据集

Name: 多标签网站指纹识别数据集
Creator: 清华大学网络科学与网络空间研究院
Published: 2025-01-22T12:10:53+08:00

arXiv2025-01-22 更新2025-01-24 收录

网络安全

隐私保护

数据链接：

https://github.com/Xinhao-Deng/Website-Fingerprinting-Library 数据链接链接失效反馈

官方服务：

资源简介：

该数据集由清华大学网络科学与网络空间研究院的研究团队创建，旨在支持多标签网站指纹识别（WF）攻击的研究。数据集包含超过50万条多标签Tor浏览会话数据，涵盖了2021年5月至2021年12月以及2022年6月至2022年11月的时间段。数据集中包含了多种现实世界的复杂性，如不同版本的Tor浏览器共存、用户访问网站的子页面以及从不同视角收集的网络流量。数据集的创建过程涉及从Tor网络中收集加密流量，并通过多级流量聚合模块提取局部模式特征。该数据集的应用领域主要集中在网络安全和隐私保护，旨在解决多标签浏览场景下的网站指纹识别问题，特别是在面对各种WF防御机制时的鲁棒性问题。

This dataset was created by the research team from the Institute of Network Science and Cyberspace, Tsinghua University, to support research on multi-label website fingerprinting (WF) attacks. It comprises over 500,000 multi-label Tor browsing session records, covering the timeframes from May 2021 to December 2021 and from June 2022 to November 2022. The dataset incorporates multiple real-world complexities, including the coexistence of different versions of Tor browsers, users accessing website subpages, and network traffic collected from multiple perspectives. The dataset development process involves collecting encrypted traffic from the Tor network and extracting local pattern features via a multi-level traffic aggregation module. Its core application areas focus on cybersecurity and privacy protection, aiming to address the website fingerprinting problem in multi-label browsing scenarios, particularly the robustness against various WF defense mechanisms.

提供机构：

清华大学网络科学与网络空间研究院

创建时间：

2025-01-22

原始信息汇总

数据集概述

数据集名称

Website-Fingerprinting-Library (WFlib)

数据集简介

WFlib 是一个基于 Pytorch 的开源库，专注于网站指纹识别攻击的研究。网站指纹识别是一种网络攻击，攻击者通过分析加密流量模式来推断用户访问的网站，即使无法直接查看流量内容。

数据集内容

攻击方法：包含 11 种基于深度学习的网站指纹识别攻击方法。
数据集：提供了多个数据集，涵盖封闭世界、开放世界以及多种防御机制下的流量数据。

数据集详情

攻击方法

攻击方法	会议	论文	代码
AWF	NDSS 2018	Automated Website Fingerprinting through Deep Learning	DLWF
DF	CCS 2018	Deep Fingerprinting: Undermining Website Fingerprinting Defenses with Deep Learning	df
Tik-Tok	PETS 2019	Tik-Tok: The Utility of Packet Timing in Website Fingerprinting Attacks	Tik_Tok
Var-CNN	PETS 2019	Var-CNN: A Data-Efficient Website Fingerprinting Attack Based on Deep Learning	Var-CNN
TF	CCS 2019	Triplet Fingerprinting: More Practical and Portable Website Fingerprinting with N-shot Learning	tf
BAPM	ACSAC 2021	BAPM: Block Attention Profiling Model for Multi-tab Website Fingerprinting Attacks on Tor	None
ARES	S&P 2023	Robust Multi-tab Website Fingerprinting Attacks in the Wild	Multitab-WF-Datasets
RF	Security 2023	Subverting Website Fingerprinting Defenses with Robust Traffic Representation	RF
NetCLR	CCS 2023	Realistic Website Fingerprinting By Augmenting Network Trace	Realistic-Website-Fingerprinting-By-Augmenting-Network-Traces
TMWF	CCS 2023	Transformer-based Model for Multi-tab Website Fingerprinting Attack	TMWF
Holmes	CCS 2024	Robust and Reliable Early-Stage Website Fingerprinting Attacks via Spatial-Temporal Distribution Analysis	WFlib

数据集列表

数据集	监控网站数量	实例数量	简介
CW.npz	95	105730	封闭世界数据集。
OW.npz	95	146446	开放世界数据集。
WTF-PAD.npz	95	105730	包含 WTF-PAD 防御的数据集。
Front.npz	95	95000	包含 Front 防御的数据集。
Walkie-Talkie.npz	100	90000	包含 Walkie-Talkie 防御的数据集。
TrafficSliver.npz	95	95000	包含 TrafficSliver 防御的数据集。
NCDrift_sup.npz	93	21430	网络条件漂移数据集，包含优质流量。
NCDrift_inf.npz	93	6882	网络条件漂移数据集，包含劣质流量。
Closed_2tab.npz	100	58000	封闭世界场景下的 2-tab 数据集。
Closed_3tab.npz	100	58000	封闭世界场景下的 3-tab 数据集。
Closed_4tab.npz	100	58000	封闭世界场景下的 4-tab 数据集。
Closed_5tab.npz	100	58000	封闭世界场景下的 5-tab 数据集。
Open_2tab.npz	100	64000	开放世界场景下的 2-tab 数据集。
Open_3tab.npz	100	64000	开放世界场景下的 3-tab 数据集。
Open_4tab.npz	100	64000	开放世界场景下的 4-tab 数据集。
Open_5tab.npz	100	64000	开放世界场景下的 5-tab 数据集。

数据集格式

数据集以 .npz 格式提供，包含两个值：X 和 y。
- X 表示单元序列，值为方向（如 1 或 -1）乘以时间戳。
- y 对应标签。

数据集使用

安装： sh git clone git@github.com:Xinhao-Deng/Website-Fingerprinting-Library.git pip install --user .
数据集下载：
- 数据集可从 Zenodo 下载，并放置在 ./datasets 文件夹中。
数据集分割：
- 使用 dataset_split.py 脚本将数据集分割为训练集、验证集和测试集。

训练与评估

提供了所有实验脚本，位于 ./scripts/ 文件夹中。
示例：使用 DF.sh 脚本在 CW 数据集上训练和评估 DF 攻击模型。

联系方式

Xinhao Deng (dengxh23@mails.tsinghua.edu.cn)
Yixiang Zhang (zhangyix24@mails.tsinghua.edu.cn)

致谢

感谢所有引用论文的作者。

搜集汇总

数据集介绍

构建方式

多标签网站指纹识别数据集的构建基于大规模的多标签Tor浏览会话数据收集。研究团队开发了一个自动化Tor浏览工具，部署在40个不同地区的云服务器上，模拟全球范围内的Tor客户端。数据收集分为两个阶段，分别从2021年5月至12月和2022年6月至11月进行。通过多种方法过滤噪声流量，确保数据集的高质量。数据集包含七类数据，涵盖了不同标签数量（2至5个标签）的浏览会话，并考虑了多种现实世界的复杂性，如不同Tor版本共存、客户端访问子页面以及流量采集点的多样性。

特点

该数据集的特点在于其规模庞大且多样化，涵盖了超过50万次的多标签Tor浏览会话。数据集不仅包含封闭世界场景（客户端仅访问Alexa Top 100网站），还包含开放世界场景（客户端访问任意网站）。此外，数据集还考虑了多种网站指纹防御机制（如WTF-PAD、Front、RegulaTor等）对流量模式的影响。每个浏览会话的流量被划分为多个短流量段，从中提取包级和突发级聚合特征，以捕捉不同网站的局部模式。这种多层次的流量聚合特征使得数据集能够有效应对多标签浏览和防御机制带来的噪声干扰。

使用方法

该数据集的使用方法主要围绕多标签分类问题展开。研究人员将多标签网站指纹攻击建模为多标签分类问题，并通过多个并行分类器来解决。每个分类器负责计算特定网站被访问的可能性，最终通过预定义的阈值输出所有监控网站的完整标签集。数据集中的流量被划分为多个短流量段，从中提取包级和突发级聚合特征，并通过改进的自注意力机制分析这些局部模式之间的相关性，从而有效识别网站。实验结果表明，该方法在多种现实场景中表现出色，尤其是在面对动态标签数量和防御机制时，仍能保持较高的识别准确率。

背景与挑战

背景概述

多标签网站指纹识别数据集由清华大学网络科学与网络空间研究院的研究团队于2023年提出，旨在解决多标签浏览场景下的网站指纹识别问题。该数据集的核心研究问题是如何在用户同时打开多个浏览器标签的情况下，准确识别用户访问的网站。传统的网站指纹识别方法通常假设用户每次只访问一个网站，但在实际应用中，用户往往会同时打开多个标签，导致网络流量模式混合，难以准确识别。该数据集的提出填补了这一领域的空白，推动了多标签网站指纹识别技术的发展，并对网络安全和隐私保护领域产生了深远影响。

当前挑战

多标签网站指纹识别数据集面临的挑战主要包括两个方面。首先，在领域问题方面，多标签浏览场景下的网络流量模式复杂，多个网站的流量混合在一起，传统的单标签识别方法难以应对。其次，在数据集构建过程中，研究人员需要克服流量分割、噪声过滤以及动态标签数量等难题。此外，现有的多标签网站指纹识别方法通常依赖于已知的标签数量，而在实际应用中，用户打开的标签数量是动态且未知的，这进一步增加了数据集的构建难度。如何在不依赖先验知识的情况下，准确识别多标签浏览场景中的网站，是该数据集面临的核心挑战。

常用场景

经典使用场景

多标签网站指纹识别数据集（Multi-tab Website Fingerprinting Dataset）在网络安全领域中被广泛用于研究和评估多标签浏览场景下的网站指纹识别攻击。该数据集通过模拟用户在Tor网络中同时打开多个浏览器标签的行为，生成了大量混合的网络流量数据。这些数据为研究人员提供了一个真实的实验环境，用于开发和测试能够识别多标签浏览会话中访问网站的新型攻击算法。特别是在Tor等匿名通信网络中，传统的单标签网站指纹识别攻击往往失效，而该数据集则为解决这一问题提供了关键支持。

实际应用

多标签网站指纹识别数据集在实际应用中具有重要的价值。首先，它可以帮助安全研究人员评估和提升匿名通信网络（如Tor）的隐私保护能力。通过分析多标签浏览场景下的流量模式，研究人员可以设计出更有效的防御机制，抵御潜在的网站指纹识别攻击。其次，该数据集还可用于执法机构的网络监控，帮助识别和追踪暗网中的非法活动。此外，企业和组织也可以利用该数据集来测试其网络流量的隐私保护措施，确保用户数据的安全性。

衍生相关工作

多标签网站指纹识别数据集催生了一系列相关研究工作。例如，基于该数据集开发的ARES框架，通过引入Transformer模型和多标签分类机制，显著提升了多标签浏览场景下的攻击效果。此外，该数据集还推动了其他多标签网站指纹识别攻击算法的发展，如BAPM（Block Attention Profiling Model）和TMWF（Transformer-based Multi-tab Website Fingerprinting）。这些工作进一步扩展了多标签攻击的研究边界，并在对抗防御机制方面取得了显著进展。同时，该数据集也为匿名通信网络的防御机制研究提供了重要参考，推动了如WTF-PAD和RegulaTor等防御技术的改进。

以上内容由遇见数据集搜集并总结生成