STAR-200K
收藏arXiv2025-12-19 更新2025-12-23 收录
下载链接:
https://github.com/2654400439/STAR-Website-Fingerprinting
下载链接
链接失效反馈官方服务:
资源简介:
STAR-200K是由中国科学院信息工程研究所和清华大学联合构建的大规模跨模态指纹数据集,包含15万条自动化采集的网站逻辑-流量配对样本。该数据集通过爬虫获取网站语义逻辑特征(如URI长度、资源大小)并同步捕获加密流量特征(如数据包时序、方向),采用对比学习框架构建联合嵌入空间。数据经过结构感知增强处理,支持零样本条件下通过跨模态检索实现HTTPS网站指纹识别,旨在解决传统监督学习方法无法识别未知网站的核心挑战,为加密流量语义分析提供基准。
STAR-200K is a large-scale cross-modal fingerprinting dataset jointly constructed by the Institute of Information Engineering, Chinese Academy of Sciences and Tsinghua University, containing 150,000 automatically collected paired samples of website logic and traffic. This dataset acquires website semantic logic features such as URI length and resource size via crawlers, synchronously captures encrypted traffic features including packet timing and direction, and builds a joint embedding space using a contrastive learning framework. The data has undergone structure-aware enhancement processing, enabling zero-shot cross-modal retrieval-based HTTPS website fingerprinting. It aims to address the core challenge that traditional supervised learning methods fail to identify unknown websites, providing a benchmark for encrypted traffic semantic analysis.
提供机构:
中国科学院信息工程研究所, 清华大学网络科学与网络空间研究院
创建时间:
2025-12-19
原始信息汇总
STAR-Website-Fingerprinting 数据集概述
数据集基本信息
- 数据集名称: STAR-Website-Fingerprinting
- 关联论文: 《STAR: Semantic-Traffic Alignment and Retrieval for Zero-Shot HTTPS Website Fingerprinting》
- 论文状态: 已被 IEEE INFOCOM 2026 接收
- 论文链接: https://arxiv.org/abs/2512.17667
- 代码仓库地址: https://github.com/2654400439/STAR-Website-Fingerprinting
- 许可协议: Apache License 2.0
- 用途声明: 仅限研究用途
数据集内容与获取
- 公开内容: 处理后的数据集与预训练模型检查点
- 获取地址: https://doi.org/10.5281/zenodo.17060855
- 数据规模: 基于超过 170,000 次网站访问和 100 GB 以上的原始流量轨迹(PCAP 格式)处理而成
- 原始数据: 由于存储和分发限制,原始流量轨迹和逻辑侧爬取日志未公开托管。如需获取,请联系:chengyifei@iie.ac.cn
研究背景与核心问题
- 研究领域: 零样本 HTTPS 网站指纹识别
- 核心问题: 能否在不收集目标网站任何流量的情况下,从加密流量中识别未见过的网站?
- 现实挑战: 现代 HTTPS 机制隐藏了 SNI 和 DNS 查询等传统标识符,而现有网站指纹识别方法仍依赖站点特定的标记流量,导致部署成本高、对网站演化脆弱且无法识别未见过的网站。
关键发现与方法
- 关键观察: 加密流量并非完全随机,现代网络协议引入了结构化的语义泄漏,在网站级语义逻辑与加密流量行为之间创建了一致的对齐锚点。
- 对齐锚点:
- 请求侧锚点: 请求数据包长度与霍夫曼编码的 URI 长度相关。
- 响应侧锚点: 聚合的响应数据包大小反映了返回的网络资源总大小。
- 协议锚点: 通过传输层的 UDP 流量比率可观察 HTTP/3 的采用情况。
- 方法(STAR): 将网站指纹识别重新定义为零样本跨模态检索问题。采用双编码器架构,通过对比学习对齐逻辑模态(爬取时的语义网站配置文件)和流量模态(加密的数据包级轨迹),从而无需在训练期间使用目标网站的流量即可进行检索。
主要实验结果
- 零样本封闭世界分类: 在 1,600 个未见过的网站上达到 87.9% 的 Top-1 准确率。
- 开放世界检测: AUC 达到 0.963,优于有监督和少样本基线方法。
- 少样本适应: 仅使用每个站点 4 条标记轨迹,Top-5 准确率达到 98.8%。
数据集使用与复现
-
环境要求: Python 3.9+
-
依赖安装:
pip install -r requirements.txt -
文件结构要求:
STAR/ ├── STAR_dataset/ # 存放处理后的数据集文件 └── STAR_model_pt/ └── best_STAR_model.pt # 预训练模型检查点
-
复现脚本:
- 封闭世界零样本分类:
python cw_zero_shot.py - 封闭世界少样本适应(线性探测):
python cw_linear_probe.py - 封闭世界少样本适应(Tip-Adapter):
python cw_tip_adapter.py - 开放世界零样本检测:
python ow_zero_shot.py - 模型预训练(可选):
python pretrain.py
- 封闭世界零样本分类:
-
预训练说明: 预训练计算成本高(约4小时,使用5个NVIDIA A100 GPU),非复现主要结果所必需,因已提供预训练检查点。
搜集汇总
数据集介绍

构建方式
在加密网络流量分析领域,构建高质量数据集是推动零样本网站指纹识别研究的关键。STAR-200K数据集的构建采用了系统化的自动化采集流程,基于Tranco排行榜的全球前20万个网站,通过部署在北美、欧洲和亚洲的分布式AWS EC2实例进行并发访问。利用Selenium控制的Chrome浏览器采集网页资源层面的语义逻辑特征,同时通过tcpdump捕获加密流量数据包,形成逻辑模态与流量模态的配对样本。经过连接失败和验证码等异常过滤后,最终获得超过17万对有效样本,其中15万对用于模型训练,2万对保留为开放世界评估集,确保了数据集的规模与多样性。
特点
该数据集的核心特征在于其独特的跨模态对齐结构,每个样本包含加密流量轨迹与网页语义逻辑的成对表示。流量模态采用三维特征矩阵编码数据包方向、HTTP版本和流索引,逻辑模态则通过八维资源向量捕捉URI长度、响应大小和协议上下文等语义信息。这种设计深刻体现了现代网络协议中请求锚点、响应锚点和传输协议锚点的内在对齐机制,为学习语义与流量之间的结构化关联提供了实证基础。数据集覆盖了广泛的网站类型和地理分布,其规模与模态对齐特性为零样本跨模态检索任务建立了前所未有的研究基准。
使用方法
STAR-200K数据集支持零样本网站指纹识别的创新研究范式,其使用方法围绕跨模态检索框架展开。在训练阶段,研究者可通过双编码器架构将配对样本映射到共享嵌入空间,利用对比学习目标优化语义对齐,并结合监督对比损失和一致性损失增强判别能力。推理阶段支持两种主要模式:零样本检索通过计算测试流量嵌入与预构建逻辑原型库的余弦相似度实现分类;少样本适应则可结合线性探测或Tip-Adapter等轻量级适配器,仅需每个站点少量标注样本即可显著提升性能。这种设计使数据集既能用于探索基础对齐机制,也能支持实际部署场景下的模型优化。
背景与挑战
背景概述
随着现代HTTPS协议的演进,加密客户端问候与加密DNS等机制在提升隐私保护的同时,仍面临网站指纹识别攻击的威胁。STAR-200K数据集由中国科学院信息工程研究所与清华大学网络科学与网络空间研究院的研究团队于2025年构建,旨在解决传统监督学习方法在加密流量分析中存在的可扩展性与泛化性局限。该数据集通过自动化爬取与流量捕获技术,构建了超过15万对网站逻辑特征与加密流量轨迹的跨模态样本,为探索零样本网站指纹识别提供了重要基础。其核心研究问题在于如何建立语义逻辑与加密流量之间的对齐关系,从而实现对未见网站的识别,这一创新范式为加密网络流量分析领域开辟了新的研究方向。
当前挑战
STAR-200K数据集致力于解决零样本网站指纹识别这一前沿问题,其核心挑战在于如何跨越加密流量与网站语义逻辑之间的模态鸿沟。具体而言,在领域问题层面,传统监督学习方法无法处理动态演化的网站内容与不断涌现的新站点,而零样本检索要求模型具备强大的跨模态对齐与泛化能力。在构建过程中,研究团队面临多重技术挑战:需要设计能够同时保留判别性、稳定性与可对齐性的跨模态表示;必须开发结构感知的数据增强方法以应对网站内容演化;还需建立大规模、高质量的自动化数据收集流程,确保逻辑-流量配对样本的语义一致性与统计可靠性。这些挑战共同构成了该数据集在理论与工程实践上的双重复杂性。
常用场景
经典使用场景
在加密网络流量分析领域,STAR-200K数据集为研究零样本网站指纹识别提供了关键支撑。该数据集通过自动化爬取与流量捕获,构建了超过15万对语义逻辑与加密流量之间的跨模态样本对,覆盖了Tranco榜单中20万个高流量网站。其经典应用场景在于训练和评估能够将网站资源级语义特征与加密数据包模式进行对齐的双编码器模型,从而实现在无需目标网站流量样本的情况下,对未知网站进行高精度识别。这种零样本检索范式彻底改变了传统网站指纹识别依赖大量站点特定标注数据的局限,为研究加密协议下的语义泄漏问题提供了标准化的实验平台。
解决学术问题
STAR-200K数据集的核心价值在于系统性地解决了网站指纹识别研究中的两大关键瓶颈:数据漂移与泛化能力不足。传统监督学习方法需要为每个待识别网站收集大量标注流量,难以应对网站内容动态更新与新站点不断涌现的现实挑战。该数据集通过引入跨模态检索框架,将识别任务重新定义为在共享嵌入空间中匹配加密流量与网站语义逻辑,从而实现了对未见网站的零样本识别。这不仅显著降低了模型部署与维护的数据收集成本,更从理论上揭示了现代HTTPS协议中请求长度、响应大小与传输协议等跨模态对齐锚点的存在,为理解加密流量中的结构性语义泄漏提供了实证基础。
衍生相关工作
基于STAR-200K数据集与STAR框架所揭示的跨模态对齐思想,衍生出了一系列探索加密流量语义理解的新研究方向。部分工作专注于扩展对齐锚点的范畴,尝试将JavaScript执行轨迹、页面渲染时序等更丰富的语义侧信道纳入跨模态学习框架。另一些研究则致力于提升模型的鲁棒性,针对多标签浏览、VPN隧道或网络条件变化等复杂场景设计自适应对齐策略。此外,该数据集启发了对防御机制的重新评估,促使研究者开发能够同时扰乱流量统计特征与深层语义结构的综合性对抗方案。这些衍生工作共同深化了对加密网络协议中信息泄漏本质的认识,并将网站指纹识别从传统的模式分类问题逐步推向一个更广义的跨模态语义推理领域。
以上内容由遇见数据集搜集并总结生成



