YJMob100K
收藏github2026-02-08 更新2026-02-09 收录
下载链接:
https://github.com/BoyangL1/LDP-DiffTraj
下载链接
链接失效反馈官方服务:
资源简介:
YJMob100K数据集是一个用于隐私保护人类移动轨迹生成的本地差分隐私(LDP)框架的数据集。
The YJMob100K dataset is designed for privacy-preserving human mobility trajectory generation under the Local Differential Privacy (LDP) framework.
创建时间:
2026-02-06
原始信息汇总
LDP-DiffTraj 数据集概述
数据集基本信息
- 数据集名称:YJMob100K
- 数据集用途:用于个性化、基于扩散的本地差分隐私(LDP)保护人类移动轨迹生成框架的研究与训练。
- 数据集来源:需从外部存储库获取。
数据集获取与存放
- 获取地址:https://zenodo.org/records/10836269
- 存放位置:下载后需将原始文件置于项目根目录下的
./data目录中。
数据集预处理流程
预处理流程包含四个主要步骤,用于准备隐私保护的轨迹数据。
1. 轨迹分割
- 执行脚本:
0-split-traj.ipynb - 处理内容:原始数据集中包含每个用户每天的一条轨迹。此步骤通过检测停留和移动,将每日轨迹分割为多个子轨迹。
2. 网格级隐私评分
- 执行脚本:
1-grid-privacy.ipynb - 处理内容:
- 为每个空间网格分配基于POI语义的隐私敏感度分数。
- 基于POI语义识别敏感区域。
3. 隐私感知轨迹生成
- 执行脚本:
2-traj-privacy-dataset.ipynb - 处理内容:根据轨迹级隐私预算注入校准噪声,生成 10个隐私级别 的噪声轨迹。
- 输出结果:
- 生成
./data_privacy目录。 - 目录内包含多个子文件夹,存放不同隐私强度下的轨迹特征和噪声轨迹。
- 生成
4. 敏感度分析
- 执行脚本:
3-sensitivity-analysis.ipynb - 处理内容:帮助计算每个前向扩散过程的隐私预算上限,并为扩散模型训练确定合适的超参数。
相关资源
- 模型检查点与生成轨迹:已在ModelScope平台公开,涵盖噪声水平0.0至1.0。
- 资源地址:https://modelscope.ai/models/Saihong/LDP-DiffTraj
评估指标
框架提供多个评估脚本,涵盖以下方面:
- OD相似性 (SSIM):评估起点-终点分布相似性。
- 占用相似性 (SSIM):评估空间单元格访问频率相似性。
- 长度JSD / Top‑4000模式F1:评估轨迹长度分布和高频模式保留情况。
- 隐私区域效用:评估轨迹在敏感区域的保护有效性。
搜集汇总
数据集介绍

构建方式
在人类移动轨迹分析领域,YJMob100K数据集的构建遵循一套严谨的预处理流程。原始数据以用户每日轨迹为单位,首先通过轨迹分割步骤,依据停留与移动的检测将长轨迹拆分为多个子轨迹。随后,基于空间网格与兴趣点语义信息,为每个网格赋予隐私敏感度评分,从而识别出敏感区域。在此基础上,通过注入校准噪声,生成了涵盖十个不同隐私强度级别的噪声轨迹,最终形成包含轨迹特征与多级隐私保护轨迹的结构化数据集。
特点
YJMob100K数据集的核心特点在于其深度融合了隐私保护机制与轨迹语义信息。数据集不仅提供了原始的移动轨迹,还通过本地差分隐私框架生成了多层次的噪声轨迹变体,为隐私增强下的轨迹分析提供了基准。其空间网格附带的语义隐私评分,使得敏感区域的识别与保护得以量化。这种设计使得该数据集能够同时支持轨迹模式挖掘、生成模型训练以及在严格隐私约束下的效用评估等多维度研究任务。
使用方法
该数据集的使用需依托配套的预处理与模型训练框架。用户首先需下载原始数据并运行指定的预处理脚本,依次完成轨迹分割、网格隐私评分、噪声轨迹生成及敏感性分析等步骤,以构建用于模型训练的结构化数据。随后,可利用生成的噪声轨迹数据训练基于扩散的轨迹生成模型。在评估阶段,提供了包括起讫点相似性、空间占用相似性、长度分布以及隐私区域效用在内的多套评估脚本,以全面衡量生成轨迹在数据效用与隐私保护之间的平衡性能。
背景与挑战
背景概述
YJMob100K数据集聚焦于人类移动轨迹分析领域,该领域旨在通过大规模轨迹数据理解个体与群体的空间行为模式,服务于城市规划、交通管理及位置服务优化。该数据集由研究团队为支持本地差分隐私(LDP)下的轨迹生成研究而构建,核心研究问题在于如何在严格隐私保护约束下,生成既保留真实轨迹统计特性又避免泄露敏感信息的合成数据。其创建依托于DiffTraj等先进轨迹生成框架,通过引入语义隐私评分与多级噪声注入机制,推动了隐私增强轨迹分析的发展,为平衡数据效用与隐私安全提供了关键基准。
当前挑战
YJMob100K数据集致力于解决隐私保护轨迹生成的挑战,即在本地差分隐私框架下,如何维持轨迹的时空模式相似性、长度分布及高频访问规律,同时有效掩盖敏感区域(如住宅、医院)的访问记录。构建过程中的挑战包括:轨迹分割需准确识别停留与移动片段以保持语义连贯性;网格级隐私评分依赖POI语义标注,其完整性与准确性直接影响敏感区域界定;多级噪声校准要求精细调整隐私预算,以在噪声强度与数据效用间取得平衡,避免过度扰动导致轨迹失真。
常用场景
经典使用场景
在人类移动轨迹分析领域,YJMob100K数据集常被用于研究隐私保护下的轨迹生成与建模。该数据集通过记录用户日常移动轨迹,为研究者提供了丰富的时空行为数据,尤其适用于探索本地差分隐私(LDP)框架下的轨迹数据脱敏与合成。经典使用场景包括利用扩散模型生成具有隐私保护性质的合成轨迹,以在保护用户敏感位置信息的同时,维持轨迹数据的统计特性与空间分布模式,为隐私增强技术提供实证基础。
衍生相关工作
围绕YJMob100K数据集,已衍生出多项经典研究工作,其中LDP-DiffTraj框架尤为突出。该框架结合扩散模型与本地差分隐私,实现了隐私保护的轨迹生成,并进一步推动了如DiffTraj等轨迹生成模型的隐私增强变体。相关研究扩展至轨迹相似性度量、分布匹配算法以及敏感区域效用评估等领域,形成了从数据预处理、隐私量化到生成评估的完整方法论体系,为后续轨迹隐私研究提供了重要参考。
数据集最近研究
最新研究方向
在人类移动轨迹分析领域,YJMob100K数据集正成为隐私保护轨迹生成研究的前沿焦点。随着本地差分隐私技术的兴起,研究者们致力于在严格隐私约束下合成高保真轨迹数据,以平衡数据效用与隐私安全。当前热点集中于扩散模型与隐私机制的深度融合,通过语义感知的网格级隐私评分,动态校准噪声注入,从而在保护敏感区域信息的同时,维持轨迹的宏观统计特征与移动模式。这一方向不仅推动了轨迹数据的安全共享与开放应用,也为智慧城市、流行病学等敏感场景下的轨迹分析提供了可信赖的解决方案。
以上内容由遇见数据集搜集并总结生成



