合成数据集

Name: 合成数据集
Creator: 西班牙卡洛斯三世大学，巴塞罗那自治理工大学
Published: 2025-05-14 21:25:19
License: 暂无描述

arXiv2025-05-14 更新2025-05-20 收录

下载链接：

http://arxiv.org/abs/2505.09374v1

下载链接

链接失效反馈

官方服务：

资源简介：

该合成数据集包含1000条用户轨迹，这些轨迹是基于真实的移动应用程序流量创建的。数据集用于模拟用户的DNS流量，并从中提取用户配置文件，以评估查询伪造策略的有效性。数据集的创建旨在保护用户免受基于DNS流量的用户画像攻击，通过将真实的DNS查询与策略性生成的虚假查询混合，创建用户行为的模糊视图，从而增强用户的隐私保护。

This synthetic dataset contains 1000 user trajectories constructed from real mobile application traffic. It is utilized to simulate user DNS traffic and extract user profiles for evaluating the effectiveness of query forgery strategies. The dataset is developed to safeguard users against DNS traffic-based user profiling attacks: by blending real DNS queries with strategically generated dummy queries, it constructs an ambiguous perspective of user behavior, thereby strengthening user privacy protection.

提供机构：

西班牙卡洛斯三世大学，巴塞罗那自治理工大学

创建时间：

2025-05-14

搜集汇总

数据集介绍

构建方式

该合成数据集的构建基于真实移动应用流量，通过数学建模和策略性生成虚假DNS查询来模拟用户行为。首先，研究人员从MAppGraph数据集中提取了81个移动应用的DNS流量数据，这些数据涵盖了不同类别的应用，如社交、游戏、音乐等。随后，采用幂律分布模拟用户应用安装行为，为1000个合成用户分配不同的应用组合和使用频率。每个用户的流量轨迹由真实应用流量片段拼接而成，确保多样性和真实性。最后，通过计算每个用户在固定时间窗口内各应用产生的DNS查询比例，构建了用户画像。

使用方法

该数据集主要用于研究DNS流量分析对用户隐私的影响以及防护策略的有效性。研究人员可以通过分析合成用户的DNS查询模式，评估不同查询伪造策略（如均匀采样、TrackMeNot生成和KL散度优化）在混淆用户画像方面的效果。使用时需先加载用户流量轨迹，提取DNS查询特征，然后应用各种隐私保护算法进行实验。数据集支持对隐私保护水平与网络开销之间权衡关系的量化分析，也可用于测试新型DNS隐私保护架构的性能。

背景与挑战

背景概述

合成数据集由Andrea Jimenez-Berenguel等人于2025年创建，旨在解决移动应用DNS流量中的用户隐私保护问题。该数据集基于真实的移动应用流量构建，包含1,000个用户轨迹，用于模拟和分析DNS查询伪造策略对用户隐私的保护效果。研究团队来自西班牙马德里卡洛斯三世大学和加泰罗尼亚理工大学，通过数学建模和实验评估，展示了DNS查询伪造在隐私保护方面的有效性。该数据集对网络安全和隐私保护领域具有重要影响，特别是在移动应用流量分析和用户行为隐私保护方面。

当前挑战

合成数据集面临的挑战主要包括两个方面：1) 领域问题挑战：DNS查询的明文传输使得用户行为模式容易被第三方分析，即使采用加密DNS协议（如DoT、DoH），用户隐私仍可能通过查询模式泄露。2) 构建过程挑战：由于缺乏公开的真实用户流量数据集，研究团队需要通过合成方法模拟用户行为，这涉及到如何准确反映真实用户行为模式的技术难题。此外，数据集的构建还需要平衡隐私保护效果与网络开销之间的关系，确保提出的解决方案在实际应用中的可行性。

常用场景

经典使用场景

在移动应用隐私保护领域，合成数据集被广泛应用于评估DNS查询伪造策略的有效性。该数据集通过模拟真实移动应用流量，构建了1000个用户的行为轨迹，为研究者提供了评估隐私增强技术的标准化环境。数据集特别适用于分析不同伪造策略（如均匀采样、TrackMeNot生成和KL散度优化）在混淆用户行为特征方面的表现，为移动应用背景流量中的隐私保护研究奠定了实验基础。

解决学术问题

该数据集有效解决了移动应用DNS流量分析中的用户画像隐私泄露问题。通过数学建模将用户行为特征转化为概率分布，研究者能够量化评估不同查询伪造策略对隐私保护的提升效果。数据集验证了在20%流量开销下可实现50%的隐私改善，为平衡网络开销与隐私保护提供了实证依据，推动了零信任模型下客户端隐私保护技术的发展。

实际应用

在实际应用场景中，该数据集支持移动设备隐私保护系统的开发验证。电信运营商可基于数据集测试DNS流量混淆方案对用户行为分析的干扰效果；安全厂商能优化移动端隐私保护应用的算法参数。数据集还为企业评估内部网络监控系统的隐私合规性提供了基准工具，有助于在服务个性化与用户隐私权之间建立平衡。

数据集最近研究