YJMob100K

github2026-02-08 更新2026-02-09 收录

下载链接：

https://github.com/BoyangL1/LDP-DiffTraj

下载链接

链接失效反馈

官方服务：

资源简介：

YJMob100K数据集是一个用于隐私保护人类移动轨迹生成的本地差分隐私（LDP）框架的数据集。

The YJMob100K dataset is designed for privacy-preserving human mobility trajectory generation under the Local Differential Privacy (LDP) framework.

创建时间：

2026-02-06

原始信息汇总

LDP-DiffTraj 数据集概述

数据集基本信息

数据集名称：YJMob100K
数据集用途：用于个性化、基于扩散的本地差分隐私（LDP）保护人类移动轨迹生成框架的研究与训练。
数据集来源：需从外部存储库获取。

数据集获取与存放

获取地址：https://zenodo.org/records/10836269
存放位置：下载后需将原始文件置于项目根目录下的 ./data 目录中。

数据集预处理流程

预处理流程包含四个主要步骤，用于准备隐私保护的轨迹数据。

1. 轨迹分割

执行脚本：0-split-traj.ipynb
处理内容：原始数据集中包含每个用户每天的一条轨迹。此步骤通过检测停留和移动，将每日轨迹分割为多个子轨迹。

2. 网格级隐私评分

执行脚本：1-grid-privacy.ipynb
处理内容：
- 为每个空间网格分配基于POI语义的隐私敏感度分数。
- 基于POI语义识别敏感区域。

3. 隐私感知轨迹生成

执行脚本：2-traj-privacy-dataset.ipynb
处理内容：根据轨迹级隐私预算注入校准噪声，生成 10个隐私级别 的噪声轨迹。
输出结果：
- 生成 ./data_privacy 目录。
- 目录内包含多个子文件夹，存放不同隐私强度下的轨迹特征和噪声轨迹。

4. 敏感度分析

执行脚本：3-sensitivity-analysis.ipynb
处理内容：帮助计算每个前向扩散过程的隐私预算上限，并为扩散模型训练确定合适的超参数。

评估指标

框架提供多个评估脚本，涵盖以下方面：

OD相似性 (SSIM)：评估起点-终点分布相似性。
占用相似性 (SSIM)：评估空间单元格访问频率相似性。
长度JSD / Top‑4000模式F1：评估轨迹长度分布和高频模式保留情况。
隐私区域效用：评估轨迹在敏感区域的保护有效性。

搜集汇总

数据集介绍

构建方式

在人类移动轨迹分析领域，YJMob100K数据集的构建遵循一套严谨的预处理流程。原始数据以用户每日轨迹为单位，首先通过轨迹分割步骤，依据停留与移动的检测将长轨迹拆分为多个子轨迹。随后，基于空间网格与兴趣点语义信息，为每个网格赋予隐私敏感度评分，从而识别出敏感区域。在此基础上，通过注入校准噪声，生成了涵盖十个不同隐私强度级别的噪声轨迹，最终形成包含轨迹特征与多级隐私保护轨迹的结构化数据集。

特点

YJMob100K数据集的核心特点在于其深度融合了隐私保护机制与轨迹语义信息。数据集不仅提供了原始的移动轨迹，还通过本地差分隐私框架生成了多层次的噪声轨迹变体，为隐私增强下的轨迹分析提供了基准。其空间网格附带的语义隐私评分，使得敏感区域的识别与保护得以量化。这种设计使得该数据集能够同时支持轨迹模式挖掘、生成模型训练以及在严格隐私约束下的效用评估等多维度研究任务。

使用方法

该数据集的使用需依托配套的预处理与模型训练框架。用户首先需下载原始数据并运行指定的预处理脚本，依次完成轨迹分割、网格隐私评分、噪声轨迹生成及敏感性分析等步骤，以构建用于模型训练的结构化数据。随后，可利用生成的噪声轨迹数据训练基于扩散的轨迹生成模型。在评估阶段，提供了包括起讫点相似性、空间占用相似性、长度分布以及隐私区域效用在内的多套评估脚本，以全面衡量生成轨迹在数据效用与隐私保护之间的平衡性能。

背景与挑战

背景概述

YJMob100K数据集聚焦于人类移动轨迹分析领域，该领域旨在通过大规模轨迹数据理解个体与群体的空间行为模式，服务于城市规划、交通管理及位置服务优化。该数据集由研究团队为支持本地差分隐私（LDP）下的轨迹生成研究而构建，核心研究问题在于如何在严格隐私保护约束下，生成既保留真实轨迹统计特性又避免泄露敏感信息的合成数据。其创建依托于DiffTraj等先进轨迹生成框架，通过引入语义隐私评分与多级噪声注入机制，推动了隐私增强轨迹分析的发展，为平衡数据效用与隐私安全提供了关键基准。

当前挑战

YJMob100K数据集致力于解决隐私保护轨迹生成的挑战，即在本地差分隐私框架下，如何维持轨迹的时空模式相似性、长度分布及高频访问规律，同时有效掩盖敏感区域（如住宅、医院）的访问记录。构建过程中的挑战包括：轨迹分割需准确识别停留与移动片段以保持语义连贯性；网格级隐私评分依赖POI语义标注，其完整性与准确性直接影响敏感区域界定；多级噪声校准要求精细调整隐私预算，以在噪声强度与数据效用间取得平衡，避免过度扰动导致轨迹失真。

常用场景

经典使用场景

在人类移动轨迹分析领域，YJMob100K数据集常被用于研究隐私保护下的轨迹生成与建模。该数据集通过记录用户日常移动轨迹，为研究者提供了丰富的时空行为数据，尤其适用于探索本地差分隐私（LDP）框架下的轨迹数据脱敏与合成。经典使用场景包括利用扩散模型生成具有隐私保护性质的合成轨迹，以在保护用户敏感位置信息的同时，维持轨迹数据的统计特性与空间分布模式，为隐私增强技术提供实证基础。

衍生相关工作

围绕YJMob100K数据集，已衍生出多项经典研究工作，其中LDP-DiffTraj框架尤为突出。该框架结合扩散模型与本地差分隐私，实现了隐私保护的轨迹生成，并进一步推动了如DiffTraj等轨迹生成模型的隐私增强变体。相关研究扩展至轨迹相似性度量、分布匹配算法以及敏感区域效用评估等领域，形成了从数据预处理、隐私量化到生成评估的完整方法论体系，为后续轨迹隐私研究提供了重要参考。

数据集最近研究