Trajectory data and Location vocabulary

github2025-06-13 更新2025-06-17 收录

下载链接：

https://github.com/ScottLiu2003/MoveGCL

下载链接

链接失效反馈

官方服务：

资源简介：

轨迹数据存储在`./traj_data`目录中，每行代表一个用户连续三天的轨迹，格式包括用户ID、量化的回转半径和位置熵，以及每个轨迹点的位置ID、星期几、时间槽、等待时间和跳跃距离。位置词汇存储在`./location_feature`目录中，每个`.npy`文件对应一个城市，包含位置的特征向量，如原始POI计数、归一化POI计数、归一化地理坐标和移动热度分数。

Trajectory data is stored in the `./traj_data` directory. Each line represents a user's three consecutive days of trajectories, with the format including user ID, quantified radius of gyration and positional entropy, as well as the position ID, day of the week, time slot, waiting time and jump distance of each trajectory point. Location feature data is stored in the `./location_feature` directory. Each `.npy` file corresponds to a city, containing feature vectors of locations, such as raw POI counts, normalized POI counts, normalized geographic coordinates and mobility heat scores.

创建时间：

2025-06-07

原始信息汇总

数据集概述

数据集基本信息

名称：MoveGCL
类型：移动轨迹数据
用途：用于训练移动基础模型，支持生成式持续学习

数据内容

轨迹数据

存储路径：./traj_data
数据格式：
- 每行代表一个用户连续三天的轨迹
- 格式示例：用户ID 量化回转半径量化位置熵;位置序列
位置序列格式：
- location_id,day_of_week,time_slot,t_wait,d_jump
- 字段说明：
  - location_id：位置唯一标识符
  - day_of_week：星期几（0=周一，...，6=周日）
  - time_slot：当天时间间隔索引
  - t_wait：位置等待时间
  - d_jump：与前一个位置的距离

位置特征数据

存储路径：./location_feature
文件格式：.npy文件（每个城市一个文件）
特征结构：
- [0-33]：原始POI类别计数
- [34-77]：归一化POI类别计数
- [78-79]：归一化地理坐标（纬度、经度）
- [80]：移动热度分数（位置流行度指标）

数据集使用

基础模型训练

脚本路径：./MoveGCL/train_base_model.py
主要参数：
- n_embd：MoE Transformer隐藏层维度
- n_layer：Transformer层数
- num_experts：每层专家数量
- city：训练城市列表

持续学习流程

生成伪轨迹：
- 构建首位置分布：./GCL_data/get_first_loc_distribute.py
- 采样基础轨迹：./GCL_data/get_sample_data.py
- 替换首位置：./GCL_data/replace_first_loc.py
- 生成伪轨迹：./GCL_data/gen_pseudo_traj.py
专家选择：
- 脚本：./get_experts_to_forze.py
- 输出：各层最常选择的专家索引
持续学习：
- 脚本：./MoveGCL/continual_learning.py
- 关键参数：
  - teacher_model：预训练模型路径
  - Increm_root：伪轨迹路径
  - experts_froze：固定专家列表

相关论文

arXiv：https://www.arxiv.org/abs/2506.06694
Hugging Face Papers：https://huggingface.co/papers/2506.06694

搜集汇总

数据集介绍

构建方式

在移动行为建模领域，Trajectory data and Location vocabulary数据集采用多源异构数据融合的方式构建。轨迹数据通过匿名化用户移动记录获取，每条轨迹包含连续三天的时空序列，精确量化了停留时间、移动距离等关键参数。位置词典则整合了地理坐标、POI分布和热度评分等多维特征，通过标准化处理形成统一的向量表示。数据采集过程严格遵循隐私保护原则，原始数据经过去标识化处理，确保符合数据伦理规范。

使用方法

使用该数据集需遵循分阶段建模流程。首先通过train_base_model.py脚本训练基础模型，需指定隐藏层维度、专家数量等架构参数。在增量学习阶段，需依次执行首位置分布计算、轨迹采样、位置替换和伪轨迹生成等预处理步骤，最后通过continual_learning.py实现知识迁移。数据集采用模块化存储结构，轨迹数据以文本格式保存，位置特征使用.npy二进制格式，确保高效存取。模型训练支持多GPU并行，需配置指定版本的CUDA和PyTorch环境。

背景与挑战

背景概述

Trajectory data and Location vocabulary数据集由研究团队在2023年推出，旨在解决移动性建模领域的核心问题。该数据集聚焦于人类移动轨迹的时空模式分析，通过整合多城市连续三天的用户轨迹数据及地理位置特征，为移动性基础模型的构建提供重要支撑。研究团队创新性地采用生成式持续学习框架MoveGCL，通过教师模型生成合成轨迹实现去中心化模型进化，有效解决了传统集中式训练中的数据孤岛问题。该数据集通过量化回转半径、位置熵等特征，为理解城市尺度下的人类移动规律提供了新的研究视角，对智慧城市、交通规划等领域具有重要参考价值。

当前挑战

该数据集面临两大核心挑战：在领域问题层面，人类移动模式具有高度异质性和时空依赖性，传统模型难以捕捉其复杂动态特征；同时隐私保护要求使得原始轨迹数据共享受限，制约了模型的泛化能力。在构建过程层面，多源轨迹数据的时空分辨率不一致、位置语义模糊等问题增加了数据清洗难度；而持续学习场景下的灾难性遗忘现象，以及专家混合模型中路由机制的优化，都对模型架构设计提出了更高要求。

常用场景

经典使用场景

在移动行为分析与预测领域，该数据集通过记录用户连续三天的轨迹数据，为研究者提供了丰富的时空行为模式。经典使用场景包括构建个性化移动模型，分析用户在特定时间段的停留偏好与移动规律。这些数据经过量化处理，可直接应用于Transformer架构的模型训练，特别适合研究城市尺度下的人类移动性特征。

解决学术问题

该数据集有效解决了移动行为建模中的三个核心问题：跨城市泛化能力的提升、数据隐私保护下的协同学习，以及动态环境中的持续知识更新。通过合成轨迹生成和专家混合机制，突破了传统集中式训练的局限性，为构建可扩展的移动基础模型提供了标准化数据支撑，显著推动了时空数据挖掘领域的范式革新。

实际应用

在实际应用中，该数据集支撑的模型可优化城市交通规划，通过预测人群流动热点辅助公交线路调整。商业领域可基于停留时间和POI特征进行精准选址分析，公共安全方面则能模拟疫情传播路径。地理位置词汇表与热力评分的结合，更实现了从微观个体行为到宏观城市动态的无缝衔接。

数据集最近研究